序 二 


这 是 一 本 以 中 国 金 融 二 级 市 场 为 背景 ， 理 论 与 实战 紧密 结合 的 书籍 ， 实 用 性 非常 强 ， 是 量化 投资 必 读 之 书 。 


我 是 通过 阅读 张 丹 的 博客 一 一 “R 的 极 客 理想 ”的 系列 文章 而 与 他 结缘 。 精 炼 的 R 语 言 编 程 风格 ,让 我 看 到 了 一 个 极 客 对 于 技术 的 不 懈 追 求 。 我 买 了 他 的 两 本 书 ，《R 的 极 客 理想 一 一 工具 篇 》 和 《R 的 
极 客 理想 一 一 高 级 开发 篇 》， 后 来 我 们 进行 了 邮件 交流 ， 并 通过 电话 深入 地 讨论 了 一 些 量化 交易 的 问题 。 随 后 一 直 保 持 联系 ， 也 在 筹划 一 起 做 全 球 市 场 的 量化 交易 。 我 可 以 感觉 到 他 是 一 个 有 想法 的 年 轻 
人 ， 愿 意 和 他 人 分 享 知识 ， 并 且 有 非常 扎实 的 跨 学 科 知识 积累 和 中 国 金融 市 场 的 交易 经 验 。 


本 书 涵盖 了 几 个 主题 ， 包 括 金 融 市 场 与 金融 理论 、R 语 言 数 据 处 理 与 高 性 能 计算 、 金 融 策 略 实战 、 量 化 投资 策略 案例 。 

以 下 是 我 认为 对 大 家 非常 有 帮助 的 知识 点 : 

了 语言 数 据 处 理 和 调用 C++ 的 章节 ， 对 于 提升 R 的 性 能 是 非常 有 用 的 。 

. Docker 架 构 现 在 在 金融 业 非 常 受 欢迎 ， 书 中 介绍 的 Docket 的 用 法 ， 为 应 用 程序 的 自动 化 部 署 提供 了 解决 方案 。 

* 可 转 债 交易 监控 系统 ， 是 使 用 R 语 言 的 一 个 很 好 的 例子 ， 它 提供 了 一 个 原型 的 建 模 方法 ， 按 照 这 个 思路 可 以 扩展 到 对 一 般 债券 交易 建立 模型 。 

` 均衡 回归 和 追 涨 杀 跌 的 量化 交易 模型 ， 是 量化 交易 的 关键 要 素 ， 每 个 人 都 应 该 知道 它 的 原理 。 

' 基金 会 系统 的 设计 和 实现 ， 对 于 资金 运作 和 持仓 管理 非常 有 用 。 

坦白 说 ， 在 一 本 书 中 ， 能 够 提供 如 此 多 解决 实际 问题 的 方法 ， 是 很 少见 的 。 我 也 从 这 本 书 中 学 到 了 很 多 东西 ， 强 烈 建议 每 个 人 都 把 这 本 书 放 在 自己 的 书架 上 ， 作 为 量化 投资 必 读 之 书 。 

陈 琪 龙 华盛顿 大 学 博士 


狂 智 金融 科技 合伙 人 (www.gquanffett.com) 


序 二 


作为 金融 统计 学 科 的 老师 ， 经 常 有 学 生 兴 冲冲 地 跑 上 门 来 问 我 如 何 通过 金融 统计 赚钱 ， 我 总 是 回答 他 们 : 如 果 我 会 这 个 ， 我 早 就 套 职 发 财 去 了 ! 于 是 大 家 哈哈 一 笑 。 
学 习 金 融 、 统 计 、 数 学 、 计 量 能 不 能 赚钱 ”我 想 大 概 是 能 的 ， 否 则 也 不 会 有 文艺 复兴 这 样 的 公司 和 James Simons 这 样 的 大 神 了 。 
本 书 到 | 底 可 以 带 给 读者 什么 呢 ?” 是 知识 ， 堪 比 真 金 白银 的 知识 。 


首先 ， 是 金融 量化 的 基础 知识 。 你 可 以 从 本 书 第 一 部 分 学 习 到 金融 量化 的 基础 知识 和 人 金融 市 场 的 交易 规则 。 书 中 深入 浅 出 地 剖析 了 资本 资产 的 定价 模型 ， 并 将 R 语 言 与 金融 市 场 相 结 合 ， 对 于 金融 初学 者 
来 说 ， 是 入 门 的 精品 书籍 。 


其 次 ， 是 掌握 并 运用 工具 的 知识 。 不 管 是 想 通过 数据 分 析 发 财 的， 还 是 像 我 这 样 准备 写 几 篇 论文 的 ， 要 进入 这 一 领域 ， 最 基本 的 要 求 就 是 能 够 “ 玩 得 动 ”数据 。 金 融 数据 以 海量 著称 ， 动 回 就 是 GB、TB 
的 数据 量 。 如 何 高 效 地 处 理 大 规模 的 数据 ， 就 成 了 数据 分 析 从 业 人 员 的 基本 功 。 本 书 第 二 部 分 ， 就 是 针对 “效率 ”而 作 。 第 3 章 对 R 语 言 中 常见 的 数据 操作 进行 整理 和 归纳 ， 得 到 一 套 高 效 数据 处 理 方法 。 第 
4 章 讲解 了 如 何 通过 使 用 第 三 方 软件 大 幅 提 升 R 语 言 的 计算 效率 。 至 于 Ri 语言 的 专业 知识 ， 请 参见 作者 的 另外 两 本 著作 《R 的 极 客 理 想 一 一 工具 篇 》 和 《R 的 极 客 理 想 一 一 高 级 开发 篇 》。 


最 后 ， 让 技术 落地 ， 通 过 市 场 来 检验 投资 方法 的 正确 性 。 本 书 第 三 部 分 ， 教 读者 如 何 编写 交易 策略 ， 并 让 市 场 来 检验 交易 策略 的 有 效 性 。 跟 着 书 中 的 4 个 实践 案例 来 操作 ， 相 信 读 者 很 快 就 能 掌握 金融 建 
模 的 方法 ， 以 及 对 应 的 R 语 言 代 码 。 之 后 ， 你 就 可 以 大 胆 地 试验 自己 的 投资 想法 是 否 有 效 了 。 
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. 第 1 章 “金融 市 场 概述 


. 第 2 章 ”人 金融 理论 


第 1 草 金融 市 场 概述 


本 章 为 全 书 开篇 ， 主 要 介绍 如 何 使 用 R 语 言 做 量化 投资 的 思路 和 方法 。 量 化 投资 是 跨 学 科 知 识 结 合 的 一 个 方向 ， 包 括 R 语 言 技术 层面 的 知识 、 基 础 学 科 的 应 用 和 人 金融 市 场 的 情况 。R 语 言 社区 提供 了 丰富 
的 金融 工具 包 ， 可 以 让 我 们 快速 构建 量化 投资 的 体系 结构 。 本 章 内 容 是 以 我 个 人 的 从 业经 验 为 基础 ， 从 数据 的 角度 观察 中 国 的 金融 市 场 ， 发 现 机 会 ， 找 到 风口 。 


1.1 Ri 召 言 为 量化 而 生 


http://blog. fens.me/r-finance/ 


做 数据 分 析 的 朋友 ， 一 定 知道 R 语 言 。R 语 言 是 一 门 统计 语言 ， 在 数据 分 析 领 域 具有 非常 明显 的 优势 。 金 融 本 身 是 重视 数据 的 行业 ， 而 R 的 最 大 优势 就 是 数据 分 析 ， 所 以 将 R 语 言 与 金融 相 结 合 ， 用 R 来 做 
量化 投资 的 策略 ， 真 的 很 配 ， 不 仅 顺 手 而 且 方 便 ， 用 了 你 就 会 知道 。 


本 章 以 “R 语 言 为 量化 而 生 ” 作 为 本 书 的 开篇 ， 主 要 强调 了 R 语 言 在 量化 投资 领域 有 着 广阔 的 应 用 场景 ， 而 且 是 重要 的 量化 投资 工具 。 
1.1.1 为 什么 是 R 语 言 

R 语 言 是 一 门面 向 数据 的 编程 语言 ， 早 期 只 是 在 统计 领域 被 统计 学 家 所 使 用 。 近 年 来 随 着 大 数据 技术 的 发 展 ， 以 及 R 语 言 自 身 生 态 的 快速 壮大 ， 不 仅 在 统计 领域 ， 在 各 大 行业 领域 中 都 能 看 到 R 语 言 的 身 
影 ， 包 括 互联 网 、 数 据 科学 、 人 工 智 能 、 机 器 学 习 、 生 物 医疗 、 游 戏 、 电 子 商 务 、 全 球 地 理科 学 、 数 据 可 视 化 等 。 


R 语 言 不 仅 能 把 数据 分 析 做 好 ， 而 且 能 通过 数据 连接 到 我 们 每 个 人 的 日 常生 活 ， 让 我 们 能 够 有 更 多 的 思考 。 比 如 ， 去 超市 购物 ， 你 购买 的 东西 会 记录 在 你 的 购物 小 票 中 ， 如 果 把 这 些 购 物 小 票 都 收集 起 
来 ， 通 过 Apriori 关 联 规则 的 频繁 项 集 算法 ， 就 可 以 分 析出 你 的 购物 习惯 。 


再 比如 ， 我 们 经 常会 收 到 各 种 推销 的 骚扰 电话 ， 有 时 候 是 卖房 ， 有 时 候 是 银行 贷款 ， 有 时 候 是 股票 推荐 ， 有 时 候 是 代 开 发 票 ， 还 有 时 候 是 “ 猜 猜 我 是 谁 ”， 此 时 我 们 可 以 收集 自己 的 通话 记录 ， 通 过 电 
话 号 码 、 号 码 注册 位 置 、 通 话 时 长 来 分 析 一 下 ， 哪 些 是 有 用 通话 ， 哪 些 是 浪费 时 间 的 通话 ， 从 而 计算 出 我 们 每 一 天 会 浪费 多 少时 间 ， 通 过 Bayes 算 法 把 有 效 通话 和 无 效 通 话 进行 二 元 分 类 ， 从 而 阻止 骚扰 电 
话 的 入 侵 。 

如 果 我 们 不 仪 能 够 收集 自己 的 通话 记录 ， 还 能 把 亲戚 朋友 或 更 多 人 的 通话 记录 都 收集 起 来 ， 组 建成 一 个 数据 库 ， 再 把 统计 出 来 的 骚扰 电话 统一 标记 ， 做 成 黑 名 单 ， 然 后 把 黑 名 单 公开 出 来 ， 就 可 以 让 更 
多 的 人 免 受 骚扰 电话 的 影响 。 

人 们 的 衣食 住 行 都 会 产生 数据 ， 产 生 数 据 的 地 方 ， 就 需要 做 数据 分 析 。 通 过 数据 分 析 ， 可 以 提高 生活 的 效率 ， 为 我 们 节约 宝贵 的 个 人 时 间 。 


在 人 类 社会 中 ， 人 们 除了 衣食 住 行 的 基本 需求 外 ， 更 多 是 对 钱 的 需求 。 我 们 每 天 都 会 跟 钱 打交道 ， 会 有 消费 的 需求 ， 月 底 会 有 工资 收入 ， 当 收入 大 于 消费 ， 资 金 积 累 到 一 定 阶段 的 时 候 ， 我 们 就 会 有 投 
资 的 需求 。 中 国人 的 投资 一 般 就 几 种 ， 买 房 、 买 黄金 、 买 股票 、 买 保险 、 买 理财 。 投 资 时 ,很 多 人 是 不 理性 的 ， 心 血 来 潮 就 买 了 ， 也 不 仔细 观察 行情 ， 买 完 很 容易 被 套 住 ， 像 “中 国 大 妈 抢 购 黄金 ” “中 国 
大 妈 是 救市 的 主力 军 ” 等 事件 都 一 度 被 新 闻 媒 体 热 炒 。 


在 金融 市 场 中 最 不 缺 的 就 是 机 会 ， 不 管 投资 什么 ， 如 果 能 在 交易 的 时 候 多 思考 一 下 ， 结 果 说 不 定 就 会 不 一 样 。 运 用 我 们 数据 分 析 的 知识 和 对 金融 市 场 规则 的 理解 ， 通 过 R 语 言 进行 数据 分 析 ， 抓 住 机 会 ， 
就 会 让 我 们 弟 泣 苦 苦 赚 到 的 钱 得 到 保值 和 增值 。 


1.1.2 ” 跨 界 结合 


R 语 言 与 其 他 编程 语言 的 最 大 不 同 在 于 ，R 语 言 是 面向 数据 的 ， 这 一 点 很 重要 ， 甚 至 影响 了 我 们 的 思维 模式 。 我 写 了 10 多 年 的 Java 程 序 ， 程 序 员 的 思维 模式 在 我 的 脑子 里 根深 蒂 固 。 我 习惯 用 面向 对 象 的 
思想 来 建 模 ， 把 现实 世界 中 的 物体 、 行 为 、 连 接 都 用 面向 对 象 的 方法 来 表达 。 我 也 习惯 了 IT 项 目的 开发 模式 ， 从 架构 设计 到 开发 的 自 上 而 下 的 设计 思路 ， 再 到 完全 由 需求 驱动 的 敏捷 开发 ， 以 及 为 业务 随 需 
而 变 的 开发 路 径 。 作 为 程序 员 ， 我 有 理想 ， 我 自 认为 技术 能 改变 世界 ， 而 这 一 切 都 是 程序 化 思维 在 影响 着 我 。 如 果 你 还 不 熟悉 什么 是 面向 对 象 ， 请 参考 《R 的 极 客 理想 一 一 高 级 开发 篇 》 第 4 章 。 


后 来 ， 当 我 接触 了 R 语 言 ， 通 过 另 一 扇 门 理解 世界 的 时 候 ， 我 发 现世 界 是 不 一 样 的 。 在 没有 程序 的 世界 里 ， 你 可 以 通过 文字 来 表达 你 做 事 的 方法 ， 你 可 以 感性 地 认识 世界 ， 也 可 以 让 数据 来 说 出 这 个 世界 
的 意义 。 你 可 以 天 天 看 新 闻 联 播 ， 了 解 国家 大 事 ; 也 可 以 看 微 博 、 朋 友 圈 的 爆料 ， 及 时 了 解 身 边 的 消息 。 这 并 不 是 程序 员 的 思维 ， 而 是 大 众 化 社会 的 想法 。 在 这 个 社会 里 ， 程 序 员 只 是 小 众 群 体 。 


改变 世界 的 方法 ， 除 了 技术 还 有 别 的 ， 比 如 ， 政 策 、 资 本 、 市 场 、 法 律 、 人 事 等 ， 从 公司 运作 的 层面 看 ， 似 乎 哪个 都 比 技术 更 重要 。 也 许 程序 员 并 不 关心 这 些 ， 但 面 对 市 场 时 ， 再 牛 的 技术 也 会 被 其 他 
因素 所 制约 。 


我 经 历 过 创业 ， 一 个 很 深刻 的 教训 就 是 ， 要 让 自己 跳出 原 有 的 思维 定式 ， 通 过 多 维 的 视角 看 世界 、 看 自己 。R 语 言 帮 我 打开 了 通过 数据 看 世界 的 窗口 。 我 的 能 力 提升 不 再 局 限于 如 何 把 程序 写 得 多 么 漂 
亮 ， 或 是 在 时 间 复 杂 度 上 用 O (log (N) ) 解决 O (N^2) 的 问题 ， 而 是 开始 关注 怎么 收集 数据 ， 怎 么 提高 数据 质量 ， 来 解决 实际 的 业务 问题 。 当 然 ， 由 于 程序 员 与 生 俱 来 的 职业 强迫 性 ,我 也 会 要 求 自己 
熬夜 一 晚上 把 50 行 代码 优化 成 40 行 。 


由 上 可 见 ， 问 题 被 转化 了 ， 虽 说 术 业 要 有 专攻 ， 但 作为 一 个 有 理想 的 极 客 ， 全 面 掌握 跨 领 域 的 知识 才 是 我 们 的 目标 。 我 创业 时 经 常 被 投资 人 问 到 ， 做 量化 投资 的 项 目 有 多 难 ?” 招 几 个 金融 背景 的 人 才 ， 
再 招 几 个 IT 背景 的 人 才 ， 的 鼓 个 项 目 ， 不 是 很 快 就 做 出 来 了 吗 ” 其 实 不 然 ， 不 同行 业 背 景 的 人 是 很 难 交 流 和 沟通 的 ， 尤 其 是 金融 和 IT 行业 : 一 种 是 封闭 不 愿意 分 享 ， 一 种 是 开放 毫 无 保留 ; 一 种 是 先 把 话说 
出 来 ， 一 种 是 先 把 事情 做 起 来 ;一 种 是 所 有 人 都 要 为 我 服务 ， 一 种 是 只 专注 于 自己 的 兴趣 。 所 以 ， 如 果 不 是 能 够 跨 界 通 吃 的 人 ， 是 做 不 好 量化 项 目的 。 


我 们 要 立志 做 个 跨 学 科 的 人 ， 这 才 是 最 核心 的 点 ， 是 不 可 被 著 代 的 。 从 IT 技术 出 发 ， 你 需要 扎实 的 编程 功底 及 架构 思想 、 科 学 的 项 目 管理 方法 、 严 谨 的 产品 设计 逻辑 ;你 还 需要 具备 统计 、 数 学 等 基础 
学 科 的 知识 ， 以 及 数据 挖掘 与 机 器 学 习 的 数据 处 理 经 验 ; 最 重要 的 ， 不 管 是 量化 投资 或 其 他 的 领域 ， 你 要 能 结合 业务 ， 理 解 市 场 的 规则 (如 图 1-1 所 示 ) 。 


这 听 起 来 很 难 ， 实 际 上 也 确实 很 难 ! 虽然 很 难 ， 但 不 光 是 对 你 ， 对 所 有 人 都 是 这 么 难 。 只 要 你 能 坚持 下 来 ， 一 定 能 通过 知识 改变 命运 。 
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金融 理论 


融 市 
a CAPM、 APT 


图 1-1 跨 界 结合 


1.1.3”R 语 言 量 化 工具 包 


做 量化 投资 ，R 语 言 的 优势 在 哪 》R 语 言 可 以 帮助 我 们 从 多 种 维度 去 理解 量化 投资 。R 语 言 本 身 就 是 我 们 需要 掌握 的 IT 技术 ， 是 一 个 需要 编程 的 技术 活 ， 但 却 极 大 地 降低 了 对 编程 的 要 求 ， 短 短 20 ~ 30 行 R 
语言 代码 ， 已 经 能 干 很 多 事情 了 。 R 语 言 是 面向 数据 的 ， 可 以 让 我 们 方便 地 对 数据 进行 处 理 ， 同 时 对 数学 、 统 计 等 基础 学 科 有 丰富 的 函数 支持 ， 还 提供 多 种 数据 挖掘 和 机 器 学 习 的 算法 库 ， 让 我 们 可 以 直接 使 
用 。 


量化 领域 更 是 R 语 言 的 强项 ， 有 针对 投资 研究 的 包 ， 有 做 回 测 分 析 的 包 ， 有 做 金融 产品 定价 的 包 ， 有 做 投资 组 合 优化 的 包 ， 还 有 风险 管理 的 包 ， 涵 盖 了 量化 投资 的 方方面面 ， 只 是 有 些 包 的 使 用 要 针对 中 
国 市 场 的 特点 进行 改进 和 优化 。 


R 语 言 为 量化 投资 提供 了 丰富 的 工具 包 ， 具 体 分 类 如 下 。 与 R 语 言 相 比 ， 再 也 没有 哪 种 语言 会 拥有 这 种 支持 了 。 


: 数据 管理 : 包括 数据 集 抓 取 、 存 储 、 读 取 、 时 间 序 列 、 数 据 处 理 等 ， 涉 及 的 R 包 有 zoo (时 间 序 列 对 象 ) 、xts (时 间 序 列 处 理 ) 、timeSeties (了 Rmettics 系 时 间 序 列 对 象 ) 、timeDate (Rmettics 系 时 间 序 
列 处 理 ) 、data.table (数据 处 理 ) 、quantmod (数据 下 载 和 图 形 可 视 化 ) 、RQuantLib (QuantLib 数 据 接 口 ) 、WindR (Wind 数 据 接口 ) 、RJDBC (数据 库 访问 接口 ) 、thadoop (Hadoop 访 问 接口 ) 、 


thive (Hive 访 问 接 口 ) 、ttedis (Redis 访 问 接 口 ) 、tmongodb (MongoDB 访 问 接口 ) 、SpatkR (Spatk 访 问 接 口 ) 、fImport (Rmetrics 系 数据 访问 接口 ) 等 。 


“ 指标 计算 : 包括 金融 市 场 的 技术 指标 的 各 种 计算 方法 ， 涉 及 的 R 包 有 TIR (技术 指标 ) 、TSA (时 间 序 列 计 算 ) 、urca (单位 根 检验 ) 、fArma (Rmetrics 系 ARMA 计 算 ) 、fAsianOptions (Rmetrics 系 亚 
洲 期 权 定价 ) 、fBasics (Rmetrics 系 计算 工具 ) 、fCopulae (Rmetrics 系 财务 分 析 ) 、 伍 xoticOptions (Rmetrics 系 期 权 计算 ) 、fGarch (Rmetrics 系 Garch 模 型 ) 、fNonlineat (Rmetrics 系 非 线 模型 ) 、 


fOptions (Rmetrics 系 期 权 定 价 ) 、fRegression (Rmetrics 系 回归 分 析 ) 、fUnitRoots (Rmetrics 系 单位 根 检 验 ) 等 。 


“ 回 测 交易 : 包括 金融 数据 建 模 ， 并 验证 历史 数据 验证 模型 的 可 靠 性 ， 涉 及 的 R 包 有 FinancialInstrument (金融 产品 ) 、quantstrat (策略 模型 和 回 测 ) 、blotter (账户 管理 ) 、fTrading (Rmetrics 系 交易 分 
析 ) 等 。 
“ 投资 组 合 : 对 多 策略 或 多 模型 进行 管理 和 优化 ， 涉 及 的 RR 包 有 PotrtfolioAnalytics (组 合 分 析 和 优化 ) 、stockPottfolio (股票 组 合 管理 ) 、fAssets (Rmetrics 系 组 合 管理 ) 等 。 


风险 管理 : 对 持仓 进行 风险 指标 的 计算 和 风险 提示 ， 涉 及 的 RR 包 有 Performance-Analytics (风险 分 析 ) 、fPortfolio (Rmetrics 系 组 合 优 化 ) 、 伍 xtremes (Rmetrics 系 数据 处 理 ) 等 。 


在 《R 的 极 客 理想 》 系 列 图 书 中 ， 分 别 对 这 些 包 做 了 介绍 。 请 大 家 对 照 包 名 进行 参考 。 


1.1.4 ”实战 应 用 


利用 R 语 言 的 便利 性 ， 我 们 可 以 很 容易 地 通过 上 面 介绍 的 这 些 工具 包 做 一 个 交易 模型 。 构 建 一 个 简单 的 投资 策略 ， 甚 至 都 不 需要 有 太 多 的 代码 。 


接 下 来 ， 我 就 举例 说 明 一 下 怎样 把 R 语 言 提 供 的 程序 包 结 合 在 一 起 使 用 。 按 照 下 面 的 步骤 做 一 个 简单 的 交易 策略 ， 即 基于 移动 平均 线 MACD 做 一 个 针对 全 球 指数 的 投资 方案 。 如 果 你 还 是 金融 新 手 ， 不 
了 解 MACD 策 略 ， 那 么 请 参考 《R 的 极 客 理想 一 一 高 级 开发 篇 》 的 2.3 节 。 


本 文 所 使 用 的 系统 环境 : 
+ Win1064bit 


* R: 3.2.3 x86_64-w64-mingew32/x64 b4bit 


下 面 是 一 个 简化 的 量化 策略 的 研究 过 程 ， 分 为 如 下 6 步 进行 。 
1) 用 quantmod 包 下 载 数据 ; 

2) 用 zoo 包 和 xts 包 进行 数据 格式 标准 化 ; 

3) 用 TTR 包 进行 模型 计算 ; 

4) 用 PerformanceAnalytics 包 进行 指标 风险 ; 

5) 用 ggplot2 包 进行 可 视 化 输出 ; 

6) 最 后 ， 进 行 结果 分 析 。 


首先 ， 我 们 要 获取 数据 : 个 人 用 户 可 以 通过 互联 网 免费 下 载 数据 ， 专 业 机 构 通常 都 是 买 专业 数据 库 。 这 里 我 们 通过 quantmod 包 从 Yahoo 财 经 下 载 数据 。 我 选择 了 全 球 5 个 市 场 的 指数 进行 比较 ， 代 码 和 
名 称 对 应 关系 如 表 1-1 所 示 。 


表 1-1 


指数 代码 ((Yahoo 财经 代码 ) 


间 数 名 称 和 代码 


指数 名 称 


标 普 500 ^GSPC GSPC 
日 经 225 和 N225 HSI 
(经 ) 
指数 名 称 指数 代码 ((Yahoo 财经 代码 ) 简称 
硬 生 指数 N22 
上 证 综 指 000001.SS SSE 


下 面 我 们 通过 R 语 言 代码 ， 来 完成 这 个 交易 策略 模型 的 构建 。 当 然 ， 这 里 只 是 为 了 说 明 整 个 过 程 ， 给 大 家 一 个 直观 的 感觉 ， 会 省 略 对 于 策略 的 细节 处 理 。 


# 加 载 程序 库 

> library (quantmod) 

> library (TTR) 

> library (PerformanceAnalytics) 
> ( 

> ( 


library (ggplot2) 
library (scales) 


# 从 Yahoo 财 经 下 载 各 全 球 指数 数据 

> options (stringsAsFactors = FALSE) 
> symbols<=e(" GSPC", "N2295" "HSL", "STIL", "000001..S8S") 

> suppressWarnings (getSymbols (symbols,src = "yahoo", from="2012-01-01")) 
[1] "GSPC" "N225" "HSI™ "STI™ "O000001 .SS" 


# 取 指 数 价 格调 整 后 的 数据 ， 合 并 数据 集 
> df<-merge (GSPC$GSPC.Agdjusted, HSISHSI .Adjusted, N225$N225.Adjusted, STISSTI.Adjusted，、`000001.SS`S$ 000001.SS.Adjusteqd `) 


# 对 列 重 命名 
> names (df) <-c ("GSPC", "HSI", "N225", "STI", "SSE") 


接 下 来 ， 让 我 们 看 看 数据 是 什么 样子 的 ， 并 画 出 全 球 指数 ， 如 图 1-2 所 示 。 


# 查看 数据 前 6 行 
> head (df) 

GSPC HS] N225 STI SSE 
2012-01-03 1277.06 18877.41 NA 2688.36 NA 
2012=01=04 1277.30 18727.31 8560.11 2711.02 2169.39 
2012-01-05 1281.06 18813.41 8488.71 2713.02 2148.45 
2012-01-06 1277.81 18593.06 8390.35 2715.59 2163.40 
2012-01-09 1280.70 18865.72 NA 2691.28 2225.89 
2012-01-10 1292.08 19004.28 8422.26 2719.83 2285.74 
# 查看 数据 最 后 6 行 
> tail (df) 


2017-02-24 2367.34 23965.70 1 3 

2017=02=27 2369:/13.23923.05° 19107.;47.34 

2017-02-28 2363.64 23740.73 19118.99 3096.61 3241.73 
3 
3 
3 


2017-03-01 2395.96 23776.49 1 
2017=03=-02 238L392 237/28::07” | 
2017-03-03 2383.12 23552.72 ] 


# 查看 数据 类 型 ， 为 xts 
> class (df) 
[1] "xtes" nmZOoOn 


整个 数据 集 采 用 从 2012 年 01 月 03 日 到 2017 年 03 月 03 日 之 间 数 据 ， 数 据 为 xts 类 型 (xts 类 型 是 R 语 言 中 专用 的 时 间 序 列 类 型 ) 。 天 于 xts 的 详细 介绍 ， 可 以 参考 《R 的 极 客 理想 一 一 工具 篇 》 的 2.2 节 。 


画 出 全 球 指数 


g<-ggplot (aes (x=] 


[ndex, y=Value, colour=Series),data=fortify 


他 


g<-gtgeom line (size=1) 
g<-gt+scale y continuous (breaks = seq(1000,30000,4000)) 


VvVVvVVvVVv 椒 
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dg<-g+gdgtitle ("Gloabe] 


[ndex") 


fF, melt=TRUE 


~ 一 


Gloabel Index 
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由 于 各 国 指数 成 立时 间 不 同 ， 成 份 股 也 不 同 ， 导 致 指数 值 有 的 很 大 ， 有 的 相对 比较 小 ， 所 以 我 们 不 能 用 指数 大 小 来 判断 好 坏 。 通 常情 况 下 ， 我 们 会 转换 成 收益 率 进 行 比较 ， 通 i 


有 标的 便 都 是 在 同一 个 维度 了 。 


# 全 球 指数 的 每 日 累计 收益 率 


> ret df<-Return.calculate (df, method="discrete") 


> chart .CumReturns (ret df,legend.1loc="topleft", main="Cumulative Daily Returns 


Index 


图 1-2 全球 指数 


for Gloabel Index") 


收益 率 越 高 ， 说 明 指数 在 这 期 间 是 表现 越 多 的 ， 我 们 越 应 该 去 投资 。 图 1-3 中 ,日 经 225 (N225) 指数 大 幅 超越 了 其 他 指数 ， 中 国 的 上 证 综 指 (SSE) 一 起 一 落 波动 非常 大 ， 标 普 500 (GSPC) 走势 稳 


健 。 


接 下 来 计算 指数 的 平均 年 化 收益 率 ， 


如 果 我 们 把 钱 一 直 投 资 在 这 些 指数 上 面 ， 那 么 每 年 的 平均 回报 是 多 少 呢 ? 


> Return.annualized (ret df) 
GSP' HSI 
Annualized Return 0.1133813 0.0619811 


N225 I SSE 
0.1927681 0.03696703 0.04817027 


Cumulative Daily Returns for Gloabel Index 
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最 高 的 ， 


11.34% 年 化 收益 率 ， 


这 里 日 经 指数 (N225) 年 化 回报 率 是 
合 来 看 ， 标 普 500 (GSPC) 其 实 是 投资 的 首选 ， 


每 年 平均 有 19.28% 的 年 化 收益 率 ， 
平均 波动 率 也 不 是 太 高 ， 所 以 风险 和 收益 都 是 相对 不 错 的 。 


图 1-3 ”全球 指数 累计 收益 率 


与 图 1-3 的 累计 收益 率 走势 相符 。 而 中 国 的 上 证 综 指 (SSE) 仪 有 4.82% 的 年 化 收益 率 ， 回 报 不 算 高 ， 且 波动 太 大 。 综 


接 下 来 ， 我 们 构建 一 个 简单 的 MACD 模 型 ， 通 过 MACD 策 略 再 对 上 面 5 个 指数 构建 交易 策略 。 


# MACD 策略 模型 
MACD<-function (dt,n=30)1{ 
names (dt)<-c('close') 


# MACD 移 动 平 均 均 线 
dat<-na.1locf (dt) 
dat$ma<-SMA (dat$close,n) 

# 交易 信号 

Sig buy<-which (dat$ma-datsclose>0) 


sig Sell<-which (datsma-dat$close<0) 
sig buy<-sig buy[which (diff (sig buy)>1)] 
sig Sell<-sig Sell[which (diff (sig Sell)>1)] 


if (first(sig Sell)<first(sig buy)) sig Sell<-sig Sell[-1] 


# 交易 清单 


trade dat<-do.call (rbind.data.frame, apply (cbind(sig buy,sig Sell),!] 


;function (row) { 


dt [row[1] :row[2],] 
})) 


# 计算 收益 率 
ret trade<-Return.calculate (trade dat, method="discrete") 
return (ret trade) 


> 
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} 
MACD 策 略 每 日 收益 率 
macd ret<-lapply (df, function(col) MACD(col 30) ) 
MACD 策 略 ， 年 化 收益 率 
t(do.call (rbind.data.frame, lapply (macd ret,Return.annualized))) 
GSPC HSI N225 下 SSE 
close 0.2137435 0.2406476 0.2261996 0.01869112 0.2817241 


我 们 写 了 一 个 MACD 的 策略 函数 ， 相 当 于 建 模 的 过 程 ， 函 数 的 输出 即 策略 的 收益 率 。 


一 起 来 进行 对 比 ， 如 表 1-2 所 示 。 


然后 ， 我 们 把 指数 数据 传 给 MACD () 函数 ， 经 过 计算 输出 策略 收益 率 。 最 后 ， 把 策略 收益 率 与 纯 指数 收益 率 放 到 


表 1-2 收益 率 对 比 


章 数 收益 0.1133813 0.0619811 0.1927681 0.03696703 0.04817027 
策略 收益 0.2137435 0.2406476 0.2261996 0.01869112 0.2817241 


从 表 1-2 中 我 们 可 以 很 明显 地 看 出 ， 用 一 根 均线 的 MACD 策 略 ， 平 均 年 收益 率 会 大 幅 优 于 纯 指 数 的 收益 率 ， 也 就 是 说 ， 如 果 我 们 这 样 交 易 ， 就 可 以 赚 到 更 多 的 钱 。 其 实 ， 这 就 是 量化 投资 的 思想 ， 从 数 
据 中 发 现 规律 。 可 能 上 面 的 过 程 和 代码 会 让 你 觉得 很 迷惑 ， 怎 么 就 能 赚 到 钱 了 ? 别 着 急 ， 本 节 只 是 本 书 的 开篇 ， 等 你 仔细 阅读 了 全 书 ， 就 能 领悟 到 这 里 的 玄机 了 。 


上 面 的 实例 用 40 行 左右 的 代码 就 完成 了 很 多 事情 。 如 果 要 把 整个 操作 都 细 分 列举 出 来 ， 包 括 数据 采集 、 数 据 清洗 、 数 据 标准 化 、 指 标 计算 、 数 据 建 模 、 历 史 回 测 、 投 资 组 合 构建 、 组 合 优化 、 计 算 结果 
评价 、 数 据 可 视 化 等 组 成 部 分 ， 其 操作 步骤 如 图 1-4 所 示 。 


荣 作 模 块 操作 步 又 


数据 清 ; 数据 标准 化 


指标 计算 数据 建 模 历史 回 测 


模型 优化 投资 组 合 构建 


计算 结果 评价 收益 /风险 计算 


可 视 化 展示 


图 1-4 量化 程序 操作 步骤 


要 搭建 一 套 量化 交易 的 系统 ， 主 要 就 是 完成 图 1-4 所 示 的 这 些 步骤 。 对 于 个 人 玩家 来 说 ， 按 照 上 面 R 语 言 代码 的 思路 ， 就 已 经 可 以 实现 了 。 如 果 你 想 做 得 更 好 ， 不 仅 是 个 人 玩 ， 而 是 通过 成 立 公 司 把 系统 
做 大 做 强 ， 为 更 多 的 用 户 提供 量化 服务 ， 那 么 你 还 需要 有 一 整套 的 平台 架构 方案 ， 同 时 配合 你 要 做 的 金融 业务 。 


1.1.5 ”量化 交易 平台 系统 架构 


R 语 言 很 强大 ， 但 R 语 言 不 是 万 能 的 。 如 果 要 搭建 完整 的 量化 投资 平台 ， 我 们 不 仅 需 要 R 的 建 模 部 分 ， 更 多 的 还 需要 依赖 IT 部 分 来 搭建 起 整套 系统 架构 。 下 面 我 们 先 来 了 解 一 个 量化 投资 平台 需要 哪些 平 
台 化 的 模块 ， 如 图 1-5 所 示 。 


APE 核 心 系统 架构 


数据 
采集 系统 指标 系统 


策略 周刊 


BBS 社 区 社区 用 户 


回 测 系统 策略 系统 策略 开发 者 


模拟 
会 计 系 统 


实 盘 实 盘 
会 计 系统 交易 系统 


图 1-5 ”量化 交易 平台 系统 架构 
1-5 中 各 业务 模块 定义 如 下 : 
* 数据 采集 系统 : 主要 用 于 采集 证 券 、 期 货 等 金融 产品 的 交易 数据 ， 证 券 产品 的 财务 数据 ， 以 及 宏观 指标 数据 和 互联 网 数据 等 。 
数据 平台 系统 : 用 于 数据 存储 和 数据 访问 ， 实 现 统一 的 数据 访问 的 接口 。 
.在线 研 发 系统 : 让 开发 者 通过 API 进 行 在 线 策略 开发 ， 开 发 者 可 以 直接 使 用 平台 的 数据 ， 策 略 提交 后 自动 化 完成 策略 回 测 。 
` 回 测 系 统 : 对 用 户 已 提交 的 策略 进行 历史 数据 的 回 测 ， 并 进行 打分 和 评估 。 
` 策略 系统 : 把 回 测验 证 后 的 策略 ， 进 行 信号 的 可 视 化 展示 ， 在 交易 时 间 实 现实 时 数据 刷新 ， 帮 助 开发 者 更 直观 地 理解 策略 信号 。 
. 优选 系统 : 从 回 测 已 验证 的 策略 中 ， 选 出 符合 一 定 条 件 的 策略 进行 模拟 交易 。 
* 模拟 交易 系统 : 运行 策略 产生 策略 信号 ， 进 行 模拟 买卖 。 
* 模拟 会 计 系统 : 对 模拟 交易 进行 每 日 的 会 计 核算 。 
:策略 超 市 : 从 模拟 会 计 系 统 选 出 符合 一 定 条 件 的 策略 ， 放 入 策略 超市 ， 开 放 给 投资 人 。 
. 投资 组 合 : 投资 人 从 策略 超市 中 选 出 多 个 策略 ， 组 建 投资 组 合 。 


实 盘 交易 系统 : 根据 投资 组 合 中 的 策略 信号 ， 进 行 实 盘 的 自动 化 交易 。 


` 实 盘 会 计 系 统 : 对 实 盘 交易 进行 每 日 的 会 计 核算 。 

` 风 控 系统 : 对 实 盘 的 策略 进行 风险 监控 ， 一 旦 实 盘 策略 遇 到 黑 天 物事 件 ， 将 马上 切断 交易 ， 并 通知 投资 人 调整 投资 组 合 。 

指标 系统 : 以 宏观 数据 为 基础 ， 让 用 户 可 以 通过 自 定义 的 方式 ， 创 建 自己 理解 的 指标 ， 并 以 个 人 的 名 义 进行 发 布 和 分 享 。 

:策略 周刊 : 每 周 选 出 平台 中 公开 的 、 表 现 比 较 好 的 策略 ， 以 报告 形式 进行 发 布 和 推广 。 

"BBS 社区 : 在 BBS 社区 进行 沟通 ， 解 决 用 户 在 软件 使 用 中 的 各 种 问题 。 

接 下 来 我 们 换 一 个 角度 ， 从 系统 染 构 看 ， 整 套 IT 系 统 主要 分 为 4 大 模块 : 数据 部 分 、 计 算 部 分 、 展 示 部 分 、 交 易 部 分 。 我 们 把 图 1-5 的 内 容 转 化 为 用 技术 架构 来 描述 ， 如 图 1-6 所 示 。 


交易 部 分 下 单 交 易 
C++/C CTP/REM 


展示 部 分 Web/PC 手机 
Javascript Html5/Nodejs iOS/Android 


计算 部 分 指标 计算 历史 回 测 实时 估 什 数据 挖掘 
Docker R R R R/Spark 


数据 部 分 历史 数据 实时 数据 
Java Hadoop/MySQL Redis 


图 1-6 ”技术 架构 


“ 数据 部 分 主要 包括 2 类 数据 ， 历 史 数 据 和 实时 数据 。 历 史 数 据 的 特点 是 种 类 繁多 ， 数 据 量 巨大 ， 用 于 回 测 和 建 模 。 实 时 数据 的 特点 是 及 时 性 要 求 高 ， 用 于 交易 。 数 据 部 分 主要 通过 Java 来 构建 ， 以 保证 
系统 的 可 靠 性 、 稳 定性 和 高 性 能 。 


“ 计算 部 分 主要 是 各 种 算法 的 应 用 ， 包 括 指标 计算 、 历 史 回 测 、 实 时 估 值 、 数 据 挖 据 等 (这 些 是 R 语 言 擅长 的 ， 并 且 用 Docker 进 行 隔离 ， 可 以 有 效 地 分 配 计算 资源 ) 。 计 算 部 分 主要 通过 R 来 完成 。R 让 
建 模 变 得 简单 ， 几 分 钟 就 可 以 把 想法 落地 变 成 模型 。 


. 展示 部 分 主要 是 把 计算 的 结果 在 PC 或 手机 上 进行 可 视 化 ， 以 友好 的 方式 将 收益 和 风险 水 平反 馈 给 用 户 。 展 示 部 分 主要 是 用 Javascript 来 完成 ， 可 以 让 可 视 化 有 更 好 的 体验 。 
. 交易 部 分 主要 是 对 接 交易 所 的 交易 通道 ， 让 我 们 可 以 用 真 钱 去 交易 ， 让 分 析 结果 得 到 价值 的 体现 ， 让 技术 得 以 变现 。 交 易 部 分 主要 是 用 C++ 技术 ， 以 保证 交易 的 及 时 性 。 
从 整体 的 结构 来 看 ，R 语 言 是 大 脑 ， 是 帮助 我 们 决策 的 最 核心 的 部 分 ， 而 决策 也 是 量化 投资 过 程 中 最 复杂 的 部 分 。 量 化 投资 本 身 是 一 个 跨 学 科 的 领域 ， 需 要 系统 的 、 科 学 的 方法 才能 把 这 些 事情 做 好 。 


本 书 是 一 个 起 点 ， 希 望 大 家 跟着 我 的 思路 ， 从 R 语 言 入 手 ， 体 会 R 语 言 建 模 的 乐趣 ， 并 真正 地 把 技术 变现 。 我 认为 R 语 言 是 非常 好 的 一 门 语言 ， 从 量化 投资 的 角度 ， 我 会 一 直 推 动 R 语 言 在 中 国 的 发 展 ， 并 
把 它 当 成 一 项 事业 来 做 。 同 时 ， 本 书 也 会 译 成 英文 版 在 全 球 发 行 ， 让 中 国 的 技术 走出 去 。 加 油 ! ! 
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问题 


国内 有 哪些 量化 投资 工具 ? 


量化 投资 工具 介绍 


http://blog.fens.me/finance-quant-tool 


量化 交易 概况 工 | 


中 国 市 场 是 一 个 很 奇妙 的 市 场 ， 受 市 场 的 影响 ， 更 受 政策 的 影响 。 股 市 上 涨 的 时 候 ， 配 资 、 杠 杆 、 高 频 ， 什 么 都 可 以 有 ; 当 股 市 不 好 的 时 候 ， 新 股 停 、 股 指 期 货 停 
相对 于 金融 二 级 市 场 的 特殊 秩序 ， 各 种 交易 工具 也 是 五 花 八 门 。 本 节 就 来 聊 聊 中 国 市 场 的 各 种 量化 交易 工具 


融 券 停 、 熔 断 二 次 干 股 跌停 
在 二 级 市 场 做 交易 ， 我 们 首先 要 了 解 市 场 的 规则 和 交易 工具 的 使 用 方法 ， 下 面 将 逐一 


逐一 介绍 可 以 使 用 的 交易 工具 
由 于 金融 市 场 的 独立 性 ， 我 们 通常 所 说 的 量化 交易 可 以 分 为 证 券 交 易 和 期 货 交 易 。 通 过 证 券 账 户 ， 我 们 可 以 交易 股票 、 债 券 、 回 购 、 开 放 式 基金 、 分 级 基金 、 质 押 、 裔 资 融 券 、 大 宗 商 品 、 券 商 理财 
等 。 通 过 期 货 账 户 ， 我 们 可 以 交易 商品 期 货 和 人 金融 期 货 
在 中 国 玩 量化 ， 主 要 就 是 期 货 、 股 票 、 债 券 、 基 人 金 的 量化 交易 。 对 于 个 人 账户 来 说 ， 只 有 期 货 是 可 以 实现 全 自动 化 量化 交易 的 ， 而 证 券 类 金融 产品 由 于 多 种 限制 很 难 实现 全 自动 化 ， 一 般 情 况 下 只 有 机 
构 账 户 才 有 交易 接口 ， 所 以 证 券 交 易 的 量化 ， 大 多 都 停留 在 量化 选 股 和 回 测 上 面 。 
图 1-13 完 整地 介绍 了 我 们 做 量化 投资 时 经 常 要 使 用 的 工具 ， 包 括 自 动 化 交易 和 手工 交易 两 个 部 分 。 


手工 下 单 工 具 
E 
期 权 客 户 端 机 构 专用 


证 券 CTP 


万 得 财经 


行情 和 交易 接口 


货 CTP 


REM 


外 
Nl 


D 量化 软件 J 


A 交易 所 数据 


FF 互联 网 平台 
数据 服务 商 


付费 数据 免费 数据 
Pvthon 
得 引 当 财经 
ddl 优 逆 
Python 


米 框 


Python/Java 


TuShare H 
数据 接口 包 回 测 


图 1-13 ”金融 市 场 交 易 工具 
由 于 图 1-13 比 较 复杂 ， 我 们 需要 把 图 分 成 几 个 部 分 单独 进行 说 明 。 
A: 从 中 间 的 交易 所 数据 开始 看 ， 所 有 的 数据 都 来 源 于 交易 所 ， 原 始 数 据 包括 价格 、 交 易 量 、 买 方 报价 、 卖 方 报 价 、 竞 价 、 资 金 流 入 、 资 金 流 出 等 。 


B: 当 你 在 证 券 公司 或 期 货 公 司 开户 后 ， 券 商会 给 你 提供 证 券 客户 端 工具 或 期 货 客户 端 工具 ， 利 用 券商 提供 的 客户 端 就 能 够 进行 手工 下 单 的 交易 了 。 如 果 你 觉得 券商 的 客户 端 不 太 好 用 ， 可 以 自己 下 载 同 
花 顺 、 大 智慧 、 东 方 财富 、 万 得 财经 等 第 三 方 辅助 交易 工具 ， 把 你 的 券商 账户 配置 进去 ， 用 这 些 第 三 方 的 交易 工具 来 交易 。 第 三 方 的 辅助 交易 工具 一 般 都 会 有 更 好 的 操作 界面 和 选 股 推荐 ， 还 有 更 多 的 人 工 
服务 ， 帮 助 散户 快速 了 解 市 场 。 但 也 存在 很 大 的 安全 隐患 ， 就 是 你 的 个 人 信息 会 被 第 三 方 拿 到 ， 有 被 泄露 的 风险 。 


C: 期 货 市 场 是 目前 程序 化 水 平 最 高 的 市 场 ， 主 要 是 因为 期 货 开 放 的 程序 化 接口 CTP。 你 只 要 开通 了 期 货 账 户 ， 就 可 以 马上 申请 开通 期 货 的 CTP 交 易 接口 。 通 过 CTP 接 口 ， 你 可 以 免费 获得 期 货 的 实时 行 
情 ， 同 时 可 以 自己 编程 实现 程序 化 下 单 ， 这 样 就 打通 了 期 货 全 自动 化 交易 的 流程 。 


D: 期 货 交易 有 5 个 主要 的 量化 交易 软件 ， 分 别 是 文 华 财 经 、MultiCharts (MC) 、 交 易 开 拓 者 (TB) 、 人 金字 塔 决策 交易 系统 和 Tradestation (TS) 。 这 5 个 软件 已 经 封装 了 行情 、 交 易 、 回 测 、 账 户 管 
理 、 策 略 模板 等 功能 ， 同 时 提供 独立 的 脚本 语言 ， 让 开发 者 可 以 编写 自己 的 交易 策略 模型 。 利 用 这 类 软件 在 特定 的 环境 进行 脚本 开发 ， 是 非常 快速 、 方 便 的 。 开 发 完成 的 脚本 ， 如 果 回 测 效果 非常 好 ， 不 用 
修改 代码 直接 就 可 以 进行 实 盘 交易 了 。 在 市 场 程序 化 成 熟 度 还 不 太 高 的 时 候 ， 很 多 小 私募 和 期 货 公 司 大 量 使 用 这 种 方法 做 量化 交易 是 非常 有 效 的 。 


E: 证 券 市 场 的 程序 化 交易 ， 基 本 都 被 政策 所 限制 。 虽 然 有 程序 化 的 交易 通道 ， 但 都 属于 机 构 专 用 ， 一 般 都 需要 3 干 万 以 上 资金 的 机 构 用 户 才能 申请 。 自 2015 年 股市 过 山 车 似 的 大 起 大 落 之 后 ， 证 监 会 
接 叫 停 了 所 有 新 基金 的 程序 化 交易 通道 ， 当 前 市 场 上 能 够 进行 自动 化 交易 的 机 构 ， 应 该 都 是 在 2015 年 5 月 之 前 成 立 的 基金 产品 。 所 以 ， 高 门槛 和 严 监管 ， 让 证 券 自 动 化 难以 实现 。 


F: 从 2015 年 开始 ， 很 多 互联 网 金融 平台 兴起 ， 开 始 利用 互联 网 技术 优势 ， 抢 占 金 融 的 市 场 。 互 联网 金融 方向 ， 除 了 P2P 和 支付 ， 另 外 一 个 分 支 就 是 量化 投资 。 目 前 国内 在 线 编程 交易 模型 比较 主流 的 平 
人 台 就 是 聚 宽 (JoinQuant) 、 优 矿 (uqer) 、 米 和 任 (RiceQuant) 。 这 种 模式 主要 模仿 的 是 国外 Quantopian (https://www.quantopian.com) ， 利 用 互联 网 来 打破 金融 量化 的 壁垒 ， 让 外 部 知识 来 冲击 
原 有 的 金融 领域 固化 的 投资 思路 ， 通 过 互联 网 的 群体 来 贡献 新 的 策略 ， 转 而 进行 投资 赚钱 。 我 在 2015 年 创业 也 是 做 的 这 个 模式 ， 当 然 我 是 利用 R 语 言 来 作为 算法 引擎， 其 他 的 平台 大 多 都 是 基于 Python 的 。 
关于 编程 语言 的 问题 ， 我 就 不 争论 了 ， 各 有 各 的 好 。 


G: 还 有 一 种 最 专业 的 玩法 ， 就 是 什么 平台 都 不 用 。 直 接 获 得 数据 后 ， 自 己 开发 程序 做 回 测 、 做 交易 、 做 会 计 、 做 风 控 .…… 交 易 的 原始 数据 主要 是 交易 所 来 提供 ， 但 是 个 人 或 公司 和 交易 所 是 无 法 对 话 
的 ， 中 间 就 产生 了 数据 服务 商 。 万 得 已 经 是 中 国 最 大 的 金融 付费 数据 的 服务 商 了 ， 聚 源 同 样 提 供 数 据 服 务 ， 先 被 恒生 收购 ， 恒 生 后 又 被 阿里 收购 ， 应 用 是 阿里 系 在 金融 的 布局 。 另 外 ， 还 有 一 种 免费 的 数据 
获得 方法 ， 就 是 从 新 浪 财经 免费 抓 取 。 网 上 有 各 种 程序 教 你 怎么 肛 取 数据 ， 后 来 有 人 把 互联 网 有 息 取 数据 的 方法 统一 写成 了 一 个 Python 的 库 ， 就 是 TuShare。 你 可 以 利用 这 个 库 ， 谍 取 到 比较 全 的 金融 数据 。 


我 想 说 的 是 ， 做 专业 的 事情 ， 还 是 要 用 专业 的 数据 库 才 会 稳 尼 ， 特 别 是 和 钱 有 关 的 事情 。 互 联网 上 的 数据 虽然 免费 ， 但 你 写 程序 爬 取 、 网 络 速 度 、 数 据 结构 、 数 据 更 新 等 操作 ， 维 护 的 成 本 也 很 高 ， 免 
费 的 数据 经 常 还 会 出 点 错 ， 多 一 行 或 少 一 行 。 如 果 你 依靠 用 免费 的 数据 所 实现 的 策略 ， 自 己 都 不 一 定 敢 放 钱 去 交易 。 


H: 一 旦 我 们 获得 了 标准 化 的 市 场 数据 ， 后 面 就 好 办 了 。 我 可 以 用 R 做 个 回归 分 析 ， 或 者 做 个 基于 MACD 的 趋势 分 析 ， 再 设计 一 个 alpha 的 对 冲 策略 ， 想 怎么 干 都 行 了 。 这 种 方式 是 最 灵活 的 ， 你 不 需要 
受到 市 场 或 者 工具 的 限制 ， 完 全 自己 掌握 。 我 党 得 随 着 量化 的 成 熟 度 越 来 越 高 ， 这 种 通过 数据 自 建 交易 平台 的 模式 会 越 来 越 多 ， 这 才 是 核心 知识 、 核 心 技 术 。 而 且 平台 化 的 通用 策略 模型 ， 最 终 可 能 会 在 完 
全 竞争 的 市 场 中 成 为 历史 。 当 然 ， 这 会 需要 很 多 年 的 时 间 ! 


J: 其 实 量化 投资 的 目标 ， 只 有 两 个 ， 一 个 是 回 测 ， 一 个 是 交易 。 我 们 要 根据 自己 的 目标 来 选择 工具 ， 你 是 想 交 易 赚钱 ， 还 是 想 通过 回 测 发 现 市 场 机 会 ， 或 者 两 个 都 想 。 目 标明 确 ， 选 择 顺手 的 工具 ， 才 
能 让 你 事半功倍 。 


我 们 把 框架 思路 讲 完 了 ， 下 面 就 分 别 详细 介绍 一 下 列举 的 这 些 工具 怎么 用 吧 。 
1.4.2 证券 期 货 客户 端 


要 进行 证 券 或 期 货 的 交易 ， 首 先 就 需要 去 券商 开户 ， 然 后 由 券商 提供 给 你 交易 客户 端 。 每 个 券商 的 软件 操作 界面 都 是 不 一 样 的 。 
1. 证 券 区 易 客 户 端 
股民 在 证 券 公司 进行 开户 ， 证 券 公司 一 般 要 负责 向 用 户 进行 股票 或 期 货 交 易 的 入 门 培训 ， 并 告知 风险 ， 同 时 帮助 股民 开通 交易 所 账号 ， 打 通 银行 的 资金 通道 ， 进 行 银 证 转账 等 。 


每 个 证 券 公司 ， 都 有 一 些 自己 的 特色 ， 比 如 股票 交易 的 手续 费 打 折 、 为 融 券 操作 提供 足够 多 的 券 、 远 程 开 户 等 。 记 得 2010 年 的 时 候 ， 万 分 之 七 点 五 的 股票 佣金 已 经 很 低 了 ， 到 2016 年 随 着 互联 网 的 冲 
击 ， 互 联网 券商 可 以 给 出 的 佣金 是 万 分 之 二 。 现 在 更 是 到 了 底线 ， 可 见 券 商 这 块 已 经 没有 利润 了 。 


有 的 证 券 公司 ， 提 供 投票 推荐 服务 ， 给 你 选 股 的 建议 。 有 的 证 券 公司 ， 理 财 类 的 金融 产品 做 得 很 好 ， 不 仅 风 险 低 ， 而 且 还 有 不 错 的 回报 。 有 的 证 券 公 司 ， 主 打 服 务 ， 定 期 安排 知识 讲座 ， 并 与 股民 互 
动 。 在 2000 年 以 前 个 人 计算 机 不 发 达 的 时 代 ， 大 家 都 去 股票 大 厅 ， 一 起 交流 。 现 在 基本 都 在 家 里 交易 ,年 轻 人 没有 时 间 长 期 果盘 ， 一 般 都 通过 手机 来 交易 。 


关于 证 券 开 户 的 问题 ， 上 海 证 券 交 易 所 只 能 开 一 个 账户 ， 深 证 证 券 交易 所 可 以 开 多 个 账户 。 到 2014 年 年 底 ， 股 市 开始 活跃 了 时， 证监 会 放 开 了 开户 许可 ， 不 再 对 开户 的 数量 进行 限制 ， 你 可 以 在 每 家 券商 
都 开户 。 后 来 ， 在 股市 经 历 2015 年 的 三 起 三 落 ， 以 及 2016 年 的 持续 震荡 后 ， 证 监 会 从 政策 上 又 把 开户 数量 限制 为 3 个 。 这 大 概 就 是 政策 大 于 市 场 的 体现 ， 也 许 隐 含 着 什么 信号 。 我 自己 开 了 3 个 证 券 账 户 ， 有 
一 个 账户 手续 费 最 便宜 ， 有 一 个 账户 是 最 早 开通 的 ， 还 有 一 个 账户 提供 上 门 服务 。 


证 券 的 客户 端 截图 如 下 ， 分 别 是 如 图 1-14 所 示 的 招商 证 券 客户 端 和 如 图 1-15 所 示 的 华泰 证 券 客户 端 。 
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图 1-14 ”招商 证 券 客户 端 
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证 券 客户 端的 操作 界面 上 ， 通 常 都 会 分 为 两 个 部 分 ， 行 情 部 分 和 账号 与 交易 部 分 。 行 情 部 分 一 般 都 由 第 三 方 软件 公司 提供 ， 
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图 1-15 
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华泰 证 券 客户 端 


主要 的 两 个 行情 软件 供应 商 分 别 是 通达 信和 和 同花顺。 招商 证 券 客户 端的 行情 


界面 是 通达 信 的 ， 而 华泰 证 券 客 户 端的 提供 商 是 同花顺 的 。 账 号 与 交易 部 分 一 般 都 是 券商 自己 制定 的 ， 比 较 个 性 化 ， 每 个 券商 的 交易 部 分 的 界面 ， 都 是 完全 不 同 的 。 招 商 证 券 客 户 端 ， 交 易 部 分 的 界面 默认 
是 说 入 在 行情 界面 下 方 的。 而 华泰 证 券 客户 端 ， 交 易 部 分 是 另外 一 个 独立 软件 程序 ， 与 行情 界面 是 完全 分 离 的 。 


第 三 方 证 券 客 户 端 软件 ， 包 括 个 人 用 户 版 本 大 智慧 、 同 花 顺 、 东 方 财富 ， 以 及 专业 用 户 版 本 的 万 得 财经 等 。 


从 软件 的 界面 设计 以 及 操作 感觉 ， 就 能 体会 到 每 个 软件 的 差异 化 定位 和 市 场 侧重 点 。 下 面 分 别 是 第 三 方 客户 端的 截图 : 大 智慧 客户 端 
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" 大 智慧 官方 推行 的 理念 : 


同花顺 官方 推行 的 理念 : 


让 投资 变 得 更 简单 ， 人 工 智能 + 炒股 软件 。 


更 专业 的 策略 方案 ， 更 安全 的 风 控 策 略 ， 更 权威 的 投资 平台 。 


. 万 得 财经 官方 推行 的 理念 : 全 方位 洞察 金融 咨询 ， 履 盖 全 球 人 金融 市 场 的 数据 与 信息 。 
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(图 1-16) 、 同 花 顺 客户 端 (图 1-17) 、 万 得 财经 客户 端 (图 1- 
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如 果 做 期 货 ， 你 需要 下 载 期 货 公 司 提供 的 客户 端 软件 。 如 图 1-19 所 示 是 国信 期 货 的 客户 端 软件 界面 ， 界 面 设计 得 中 规 中 矩 ， 交 易 时 需要 的 视图 都 有 ， 就 是 用 户 体验 不 够 友好 。 
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2. 免 费 数据 服务 
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11 93_data = q3 data.set index(['secID','secShortName','endDate"])['ROEA'].unstack().reset index() 
12 data = data.merge(q3_data，how= inner ` ，on=[ "secID','secShortName" ]) 


14 |# 市 型 率 市 值 数 据 
15 mkt data = DataAPI.MktStockFactorsOneDayGet(tradeDate= " 296176214 ' ,field= "secID,PE,LCAP,LFLO ) 
16 mkt_data[ “LCAP'] = [np.exp(x)/1e8 for x in mkt_data['LCAP']] 

7 mkt_ data[ LFLO'] = [np.exp(x)/ie8 for x in mkt data['LFLO']] 

8 data = data.merge(mkt data, how="inner', on=['secID']) 


28 # 上 市 日 期 数据 
Ti info data = DataAPI.EquGet(equTypeCD="', secID=data.secID.values, field="secID,listDate', pandas="1°) 
22 data = info data.merge(data, how="inner' ’ 


的 内 存 占用 31% 


图 1-25” 优 矿 在 线 平 台 


这 3 个 平台 都 提供 Python 的 AP1， 都 是 基于 Docker 容 器 的 自动 化 资源 分 配方 案 ， 且 都 不 能 直接 下 载 数据 。Docker 是 一 个 开源 的 、 系 统 级 的 、 轻 量 的 虚拟 化 技术 ， 关 于 Docker 技 术 的 详细 介绍 ， 请 参考 
本 书 4.3 节 。 


随 着 在 线 策略 研发 平台 的 兴起 ， 也 导致 了 在 线 策略 交易 平台 在 走 下 坡 路 ， 如 中 量 网 、 微 量 网 正面 临 巨大 的 转型 压力 。 


1.4.5 ”量化 工具 软件 


文 华 财 经 、MultiCharts (MC) 、 交 易 开拓 者 (TB) 、 人 金字 塔 、Tradestation (TS) ， 是 以 软件 形式 提供 的 量化 客户 端 程序 ， 你 的 策略 开发 过 程 需 要 把 数据 下 载 到 本 地 ， 然 后 利用 你 本 机 的 资源 进行 计 


那么 本 地 软件 与 互联 网 平台 有 什么 区 别 呢 ?从 软件 架构 设计 上 考虑 的 主要 问题 是 ， 数 据 在 哪 保存 、 计 算 在 哪 完成 。 


互联 网 平台 通常 都 不 需要 下 载 数据 ， 用 户 在 线 写 好 代码 ， 直 接 提交 就 行 了 。 服 务 器 端 后 台 会 为 用 户 启动 一 个 Docker 容 器 ， 根 据 配 置 分 配 好 内 存 、CPU 等 计算 资源 ， 计 算 完成 后 把 结果 通过 浏览 器 再 展示 
给 用 户 。 整 个 过 程 都 在 服务 器 端 完 成 ， 用 户 不 需要 自己 的 计算 机 有 多 高 的 配置 ， 只 要 能 上 网 ， 并 有 个 支持 H5 特 性 的 浏览 器 就 行 了 。 互 联网 平台 的 系统 架构 思路 如 图 1-26 所 示 。 


程序 AP| 回 测 计算 


Docker 计算 资 


图 1-26 ”互联 网 平台 架构 思路 


而 客户 端 软 件 架 构 的 思路 是 完全 不 同 的 ， 如 图 1-27 所 示 ， 所 有 的 数据 都 必须 下 载 到 本 地 ， 然 后 再 运行 ， 这 样 会 用 到 本 地 计算 资源 。 用 户 的 回 测 程序 的 计算 速度 受 本 地 计算 机 的 性 能 影响 ， 这 时 用 户 就 需 


要 配备 一 台 高 配 计算 机 。 虽 然 这 种 方式 会 把 数据 下 载 到 本 地 ， 但 也 只 能 在 这 个 软件 内 部 用 ， 因 为 数据 是 加 密 的 ， 没 有 文档 ， 也 没有 数据 格式 说 明 。 


软件 客户 庙 


下 载 数 据 


图 1-27 软件 平台 架构 思路 


利用 文 华 财经 软件 ， 你 可 以 边 编程 ， 边 通过 可 视 化 的 界面 ， 直 观 地 看 到 交易 信号 ， 同 时 还 有 完整 的 策略 分 析 报 告 ， 这 个 设计 非常 方便 。 图 1-28 和 图 1-29 是 文 华 财经 的 wh8 软 件 截图 ， 包 括 编 程 和 回 测 界 
面 ， 以 及 策略 报告 。 
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图 1-28 wh8 编 程 和 回 测 界面 


图 表 分 析 
蜂 民 告 ”次 各 日 -收益 /7 风险 
ER “资金 曲线 损益 曲线 图 
2017/03/09 13:52:15 权益 曲线 图 
500000. 000 爱 亏 分 布 图 
十 售 1706 盈亏 直方 图 
十 债 1706 连续 亏损 次 数 
1 分 钟 日 - 浮动 盈亏 
数据 开始 时 间 2017-2-20 权益 面积 图 
数据 结束 时 间 2017-3-9 浮 爱 面积 图 
信号 计算 开始 时 间 2017-2-20 浮 亏 面积 图 
信号 计算 结束 时 间 溯 盈 分 布 图 
单位 着 浮 亏 分 布 图 
L 浮 盈 直方 图 


花 才 出 至) 寺 


保存 测算 报告 分 段 报告 推荐 实 盘 头寸 模型 打分 方法 


全 分 
主 法 .00 元 浮 亏 直方 图 
初始 资金 比例 : 纺 j 
模型 纺 
参数 统 

和 昌 绒 计 
名 称 交 S ; 
测试 天 数 
测试 周期 数 
信号 个 数 
指令 总 数 
信号 消失 次 数 
资金 分 配 量 500000. 000 
最 终 权 益 490900. 000 
空仓 周期 数 9 
最 长 连续 空仓 周期 数 

日 期 


图 1-29 wh8 策 略 报告 


文 华 财经 的 一 大 特点 ， 是 把 交易 策略 分 为 趋势 交易 、 套 利 交 易 、 盘 口交 易 ， 再 针对 不 同 的 交易 模式 提供 特殊 的 函数 来 支持 。 其 他 的 几 个 量化 软件 ， 与 文 华 wh8 功 能 上 是 类 似 的 ， 大 家 可 以 根据 自己 的 兴 
趣 或 者 培训 课程 目 行 下 载 使 用 。 


1.4.6_API 程 序 工具 


最 后 我 要 介绍 的 方法 就 是 专业 人 员 的 做 法 了 ， 同 时 也 是 有 编程 背景 的 人 最 突出 的 优势 点 。 通 过 交易 接口 和 行情 接口 ， 自 己 动手 编程 来 构建 整套 的 投 研 体系 和 交易 体系 。 这 种 方法 是 需要 一 个 团队 来 完成 
涉及 的 知识 点 很 多 ， 而 且 工作 量 是 巨大 的 。 


如 


市 场 上 ， 开 放 的 交易 接口 主要 有 CTP、REM 等 ， 同 样 的 ， 每 种 工具 各 有 特点 。 


CTP (Comprehensive Transaction Platform， 综 合 交 易 平台 ) 是 专门 为 期 货 公司 开 发 的 一 套 期 货 经 纪 业 务 管理 系统 ， 由 交易 、 风 控 和 结算 三 大 系统 组 成 。CTP 交 易 系 统 主要 负责 订单 处 理 、 行 情 转发 
及 银 期 转账 业务 ; 结算 系统 负责 交易 管理 、 账 户 管理 、 经 纪 人 管理 、 资 金管 理 、 费 率 设置 、 日 终结 算 、 信 息 查 询 以 及 报表 管理 等 ; 风 控 系 统 则 主要 在 盘 中 进行 高 速 的 实时 试 算 ， 以 及 时 揭示 并 控制 风险 。 系 
统 能 够 同时 连通 国内 四 家 期 货 交 易 所 ， 支 持 国内 商品 期 货 和 股指 期 货 的 交易 结算 业务 ， 并 能 自动 生成 、 报 送 保证 金 监 控 文 件 和 反 洗 钱 监控 文件 。 


REM 是 盛 立 极速 柜台 交易 系统 ， 是 以 硬件 FPGA 技 术 来 处 理 核 心事 前 风 控 业务 和 交易 管理 业务 的 系统 。REM 系 统 的 主要 业务 功能 将 分 为 两 部 分 : 交易 和 风险 控制 。 系 统 在 提供 严密 事前 风 控 的 同时 又 保 
证 了 超 低 延 迟 ， 成 就 专业 和 机 构 投资 者 最 安全 又 最 快 的 交易 。 


CTP 可 以 在 期 货 公 司 直接 开通 ， 比 较 成 熟 ， 而 REM 只 是 特定 的 期 货 服 务 商 才 有 ， 而 且 只 有 基础 API 功 能 。CTP 是 通用 期 货 交 易 接口 ， 支 持 连 接 4 个 期 货 交 易 所 ，REM 重 点 支持 上 海 期 货 交 易 所 ， 不 支持 中 
国 金融 交易 所 。 速 度 上 ，CTP 延 迟 在 20ms 左 右 ，REM 延 迟 在 5ms 左 右 ， 这 些 都 是 在 机 房 的 测速 ， 远 程 连接 延迟 都 在 500ms 以 上 。 


不 管 接 入 CTP 或 REM ， 都 是 需要 C++ 编程 的 。 这 些 程序 使 用 的 都 是 异步 回调 的 机 制 ， 你 还 需要 了 解 Callback 的 程序 设计 方法 。 直 接 用 C++ 进行 程序 开发 ， 对 于 一 般 的 程序 员 来 说 也 是 相对 复杂 的 。 你 至 
少 需要 2 个 独立 的 进程 处 理 行情 和 交易 ， 在 交易 时 ， 你 可 能 需要 用 最 新 价 挂 单 ， 这 时 进程 之 间 是 需要 传递 数据 的 。 你 研发 的 策略 模型 ， 有 可 能 是 用 R 语 言 和 Matlab 来 编写 的 ， 然 后 把 交易 信号 传 给 C++ 的 下 
单程 序 去 交易 。 另 外 ， 针 对 不 同 的 交易 策略 ， 比 如 同一 时 间 ， 一 个 做 TF1706 空 单 ， 一 个 做 TF1706 多 单 ， 你 就 应 该 在 系统 内 部 进行 撮合 ， 有 记 账 、 而 不 进行 实际 交易 。 当 你 要 下 多 于 500 手 大 单子 的 时 候 ， 你 
的 系统 也 应 该 能 够 帮 你 把 大 单 拆散 ， 以 每 秒 5 手 的 速度 下 单 ， 从 而 减少 对 市 场 的 冲击 。 如 果 按 照 我 上 面 列 出 来 的 要 求 开发 一 套 系统 ， 你 的 系统 的 复杂 度 就 会 变 得 很 高 了 。 当 然 ， 如 果 你 的 资产 规模 有 几 个 亿 ， 
这 一 切 都 是 值得 的 。 


做 量化 有 这 么 多 的 选择 ， 为 什么 我 要 用 R 语 言 ”在 本 书 开篇 1.1 节 我 已 经 强调 过 了 ，R 语 言 并 不 是 万 能 的 ， 我 用 R 来 解决 建 模 的 问题 ， 当 然 你 也 可 以 用 Python 或 Matlab 来 做 ， 各 有 各 的 好 。Matlab 很 方 
便 ， 但 是 收费 ; Python 虽说 什么 都 可 以 二， 但 当 你 用 Python 去 解决 一 个 非 工程 化 的 问题 的 时 候 ， 可 能 找 不 到 思考 的 方向 。 


明确 你 的 目标 ， 选 择 顺手 的 工具 ， 发 挥 自己 和 工具 的 特点 ， 去 创造 价值 吧 ! 


第 2 章 金融 理论 模型 


本 章 用 R 语 言 深度 解读 了 投资 学 理论 和 统计 学 理论 在 实际 金融 市 场 中 的 应 用 ， 包 括 4 个 基础 理论 模型 ， 即 资本 资产 定价 模型 、 一 元 回归 性 线 模型 、 多 元 回归 线性 模型 、 自 回归 模型 ， 希望 这 些 基础 理论 模 
型 可 以 帮助 读者 ， 找 到 理解 金融 市 场 的 方法 。 


如 何 用 R 语 言 进行 投资 组 合 管理 ? 


beta 


R 语 言 解读 资本 资产 定价 模型 CAPM 


http://blog.fens.me/finance-capm 


引言 

伴随 2016 年 中 国 金融 交易 市 场 的 跌宕 起 伏 ， 风 险 越 来 越 不 确定 ， 利 率 持续 走低 ， 理 财 等 无 风险 资产 收益 持续 下 降 ， 唯 有 投资 组 合 才能 让 我 们 的 资产 保值 、 增 值 。 根 据 资本 资产 定价 模型 (CAPM) ， 通 
过 对 金融 数据 的 分 析 ， 构 建 投资 组 合 ， 帮 助 我 们 在 有 效 的 市 场 中 控制 风险 、 稳 定 收益 。 

本 节 将 深入 浅 出 地 介绍 资本 资产 定价 模型 ， 从 理论 到 建 模 ， 再 到 程序 现实 。 资 本 资产 定价 模型 反应 的 是 资产 的 风险 与 期 望 收益 之 间 的 关系 ， 风 险 越 高 ， 收 益 越 高 。 当 风险 一 样 时 ， 投 资 者 会 选择 预期 收 


将 
益 最 高 的 资产 ; 而 预期 收益 一 样 时 ， 投 资 者 会 选择 风险 最 低 的 资产 。[1] 
2.1.1 故事 背景 


1952 年 ， 马 科 维 洗 (Markowitz) 提出 了 投资 组 合 选择 理论 ， 他 认为 最 佳 投资 组 合 应 当 是 风险 厌恶 特征 的 投资 者 的 无 差异 曲线 和 资产 的 有 效 边界 线 的 交点 。 投 资 者 在 选择 资产 时 会 在 收益 和 风险 之 间 做 
出 平衡 : 当 风 险 一 样 时 ， 会 选择 预期 收益 最 高 的 资产 ;而 预期 收益 一 样 时 ， 会 选择 风险 最 低 的 资产 。 


到 1964 年 ， 威 廉 -夏普 (William Sharp) 、 约 翰 ` 林 特 纳 (John Lintner) 与 简 : 莫 森 (Jan Mossin) 在 马 科 维 次 的 基础 上 提出 了 单 指数 模型 ， 将 市 场 组 合 引入 均值 -方差 模型 ， 极 大 地 简化 了 计算 。 他 们 
认为 获得 了 市 场 任意 资 组 合 的 收益 与 某 个 共同 因素 之 间 有 线性 关系 ， 最 终 将 其 发 展 为 资本 资产 定价 模型 《Capital Asset Pricing Model，CAPM) 。 从 马 科 维 茨 的 投资 组 合 选择 理论 ， 发 展 到 资本 资产 定价 
模型 经 历 了 一 个 漫长 的 过 程 。 


图 2-1 投资 组 合 选择 示意 图 


简单 一 句 话 概括 ， 资 本 资产 定价 模型 的 核心 思想 : 资产 价格 取决 于 其 获得 的 风险 价格 补偿 。 

资本 资产 定价 模型 ， 是 基于 一 系列 假设 条 件 而 成 立 的 。 但 这 些 条 件 ， 可 能 并 不 符合 现实 的 标准 ， 资 本 资产 定价 模型 也 一 度 遭 到 质疑 。 
* 资产 可 以 无 限 分 割 。 

“不 存在 交易 成 本 和 个 人 所 得 税 。 

` 可 以 无 限 卖 空 。 


* 存在 一 种 无 风险 利率 ， 投 资 者 在 此 利率 水 平 下 ， 可 以 无 限制 地 贷 出 和 借入 任意 数额 的 资金 。 


* 投资 者 是 理智 的 ， 通 过 比较 资产 的 期 望 收 益 和 方差 来 作出 投资 决策 ， 在 相同 预期 收益 下 会 选择 风险 最 小 的 资产 。 
* 投资 者 在 相同 的 投资 期 限 出 作出 决策 ， 而 市 场 信 息 是 公开 免费 的 ， 并 可 以 及 时 获得 。 


. 投资 者 对 市 场 中 的 经 济 变量 有 相同 的 预期 ， 他 们 对 任意 资产 的 预期 收益 率 、 市 场 风险 的 看 法 是 一 致 的 。 


靖 


资本 资产 定价 模型 的 核心 假设 认为 市 场 满足 完全 竞争 、 无 摩擦 和 信息 完全 对 称 的 条 件 ， 市 场 中 的 投资 人 都 是 Markowitz 理 论 中 的 理性 经 济 人 。 从 真实 的 市 场 来 看 ， 这 些 假设 条 件 基本 都 是 不 具备 的 。 机 
构 在 用 资本 资产 定价 模型 时 候 ， 也 都 是 基于 自己 对 市 场 的 理解 ， 在 自己 的 优势 端 ， 尽 量 贴近 假设 条 件 ， 找 出 最 优 的 投资 组 合 方案 ， 所 以 每 个 机 构 做 的 投资 组 合 方案 也 都 是 不 一 样 的 。 


2.1.2 ”资本 市 场 线 
由 于 涉及 金融 专业 领域 ， 有 几 个 概念 是 我 们 应 该 提前 知道 的 。 
. 风险 资产 : 风险 资产 是 指 具有 未 来 收益 能 力 的 资产 ， 但 收益 率 不 确定 且 可 能 招致 损失 ， 比 如 股票 、 债 券 等 。 
. 无 风险 资产 : 没有 任何 风险 或 者 风险 非常 小 的 资产 ， 有 确定 的 收益 率 ， 并 且 不 存在 违约 的 风险 。 
收益 率 : 指 从 投资 开始 到 投资 结束 时 ， 所 获得 的 投资 回报 率 。 
` 无 风险 收益 率 : 无 风险 资产 ， 所 产生 的 投资 回报 率 。 
: 投资 组 合 : 由 投资 人 或 金融 机 构 所 持 有 的 股票 、 人 债券、 基金、 衍生 金融 产品 等 组 成 的 集合 ， 目 的 在 于 分 散 风 险 。 
. 杠杆 交易 : 就 是 利用 小 资金 来 进行 数 们 于 原始 金额 的 投资 ， 以 期 望 获取 相对 投资 标的 物 波动 的 数 们 收益 率 的 避 利 或 亏损 。 
1. 风 险 资产 


对 于 风险 资产 来 说 ， 我 们 可 以 用 预期 收益 和 风险 ， 通 过 二 维 的 坐标 来 进行 描述 ， 如 图 2-2 所 示 。 


图 2-2 ”风险 资 广 


对 图 2-2 的 解释 : 


“xX 轴 : 风险 ; 
“y 轴 : 收益 率 ; 


` 灰色 区 域 : 金融 资产 可 投资 区 域 ; 
` 黑色 线 : 有 效 投资 边界 ; 
. A 点 和 B 点 : 2 个 风险 资产 。 
A 和 B 有 相同 的 x 值 ， 表 示 具 有 相同 的 风险 。B 点 在 A 点 上 面 ， 表 示 B 的 收益 率 高 于 A。 对 于 理性 的 投资 者 来 说 ， 如 果 只 在 人 A 点 和 B 点 之 间 做 投资 选择 ， 那 么 大 家 会 把 所 有 钱 都 投资 到 B 点 ， 而 不 投资 于 A 点 。 
2. 无 风险 资产 
在 图 2-3 中 ， 我 们 加 入 无 风险 资产 ， 比 较 无 风险 资产 和 风险 资产 的 关系 。 
对 图 2-3 的 解释 : 
` B 点 : 1 个 风险 资产 ， 在 有 效 投资 边界 上 ; 


` C 点 : 无 风险 资产 ， 在 y 轴 上 ; 


` X 轴 : 风险 ; 
“y 轴 : 收益 率 ; 


: 灰色 区 域 : 金融 资产 为 可 投资 区 域 ; 

. 黑色 线 : 有 效 投资 边界 。 

C 点 为 无 风险 资产 ， 它 的 位 置 在 图 示 的 y 轴 上 ， 这 时 x 为 0， 即 风险 为 0。 我 们 可 以 把 投资 分 配 到 C 点 或 B 点 上 。 如 果 都 投 到 C 点 ， 那 么 我 们 将 获得 的 是 ro 部 分 的 无 风险 收益 ;如 果 都 投 到 B 点 ， 那 么 我 们 需要 
承担 op 的 风险 ， 同 时 获得 rp 的 风险 收益 。 如 果 我 们 把 资金 ， 一 部 分 投资 到 B 点 对 应 的 风险 资产 上 ， 另 一 部 分 投资 到 C 点 对 应 的 无 风险 资产 上 ， 那 么 将 构成 一 个 由 B 和 C 资 产 组 成 的 投资 组 合 ， 而 且 风 险 和 收益 音 
分 将 体现 在 B 和 C 的 连 线 上 。 


3. 最 优 组 合 


那么 ， 有 没有 最 优 的 投资 组 合 呢 ? 收益 最 大 、 风 险 最 小 。 下 面 就 让 我 们 来 找 出 这 个 最 优 的 组 合 M ， 如 图 2-4 所 示 。 


图 2-3 无 风险 资产 


图 2-4 最 优 组 合 


对 图 2-4 的 解释 : 


. M 点 : 最 优 组 合 的 风险 资产 ; 


.也 点 : 1 个 风险 资产 ， 在 有 效 投资 边界 上 ; 
“ C 点 : 无 风险 资产 ， 在 y 轴 上 ; 

“x 轴 : 风险 ， 

.y 轴 : 收益 率 ; 

“ 灰色 区 域 : 金融 资产 为 可 投资 区 域 ; 
黑色 线 : 有 效 投资 边界 。 


假设 有 最 优 的 组 合 ， 在 图 2-4 中 M 点 处 ， 当 我 们 把 C 和 M 进 行 连 线 ， 使 得 CM 的 连 线 与 灰色 区 域 相 切 。 从 图 上 看 ，CM 的 连 线 会 比 任意 的 C 点 与 可 投资 区 域 点 的 连 线 斜率 都 要 大 ， 比 如 C 和 B 的 连 线 。 我 们 取 
CB 的 连 线 的 延长 线 ， 在 CB 的 延长 线 上 找到 ， 与 M 具 有 相同 x 的 点 B'， 这 时 M 与 B' 风 险 相同 ，M 点 在 B' 点 的 上 面 ， 所 以 M 点 的 收益 率 大 。 也 就 是 说 ， 当 风险 相同 的 时 候 ， 我 们 都 会 选择 收益 率 最 大 的 资产 。 


不 论 从 可 投资 区 域 中 怎么 选取 ，M 点 都 是 斜率 最 大 的 点 ， 那 么 我 们 可 以 认为 ，M 点 为 市 场 上 各 资产 的 最 优 的 投资 组 合 。 


对 于 最 优 的 投资 组 合 ， 其 实 不 管 投 资 者 的 收益 风险 的 偏好 是 什么 样子 的 ， 只 要 找到 了 最 优 的 风险 资产 组 合 ， 再 加 上 无 风险 的 资产 ， 就 可 以 为 投资 者 获得 最 佳 的 投资 方案 了 。 那 么 对 于 理性 的 投资 者 ， 如 
果 发 现 了 最 优 的 组 合 ， 他 们 只 会 投资 这 个 组 合 ， 这 与 收益 和 风险 偏好 无 关 。 


M 点 构建 的 投资 组 合 ， 一 般 是 由 所 有 可 投资 证 券 产 品 组 成 的 ， 每 种 证 券 资产 构成 的 比例 ， 为 证 券 的 相对 市 值 。 无 风险 资产 C， 并 没有 包括 在 M 中 ， 人 们 都 会 选择 CM 的 连接 线 进 行 投资 ， 来 构建 最 优 的 投 


资 组 合 。 
在 实际 的 市 场 交易 中 ， 金 融资 产 的 价格 会 发 生 偏离 ， 因 为 价格 受 市 场 的 供需 关系 所 影响 ， 当 价格 发 生 偏离 后 ， 市 场 会 自动 修复 会 回 均衡 价格 水 平 。 
4. 资 本 市 场 线 
对 于 CM 的 连 线 ， 就 是 马 科 维 尝 提 出 的 投资 组 合 选择 理论 ， 即 风险 厌恶 特征 的 投资 者 的 无 差异 曲线 和 资产 的 有 效 边 界线 的 交点 。 而 CM 这 条 线 就 叫 资本 市 场 线 (Capital Market Line) 。 
资本 市 场 线 表 明了 有 效 组 合 的 期 望 收益 率 和 标准 差 之 间 的 一 种 简单 的 线性 关系 。 


资本 市 场 线 决 定 了 证 券 的 价格 。 因 为 资本 市 场 线 是 证 券 有 效 组 合 条 件 下 的 风险 与 收益 的 均衡 ， 如 果 脱离 了 这 一 均衡 ， 则 就 会 在 资本 市 场 线 之 外 ， 形 成 男 一 种 风险 与 收益 的 对 应 关系 。 


1 p 


y 资本 市 场 线 


图 2-5 资本 市 场 线 
5. 投 资 组 合 构 建 


资本 市 场 线 ， 就 是 我 们 最 优 的 投资 组 合 ， 当 我 们 发 现 这 个 投资 组 合 ， 所 有 资金 都 会 投 到 这 个 组 合 上 。 通 过 对 无 风险 资产 C 和 风险 资产 M 分 配 不 同 的 投资 权重 ， 我 们 可 以 配置 出 自己 想 要 的 风险 和 收益 ， 


同时 可 以 利用 金融 工具 来 加 杠杆 放大 风险 和 收益 的 范围 ， 如 图 2-6 所 示 。 
我 们 把 投资 者 分 为 风险 厌恶 型 和 风险 激进 型 。 


收益 但 求 本 金 安 全 ， 这 些 资 金 通常 都 是 用 来 生活 的 。 那 么 在 为 这 些 资金 做 资产 配置 方案 的 时 候 ， 可 以 把 一 部 分 资金 配置 到 无 风险 资产 上 ， 同 时 将 少 


= 
[ 纠 
量 收 益 。 


风险 厌恶 型 对 于 资金 安全 有 非常 高 的 要 求 ， 不 追求 
量 资金 配置 到 M 点 的 最 优 组 合 上 ， 保 证 低 风 险 并 获得 少 


在 图 2-6 中 CM1 点 ， 如 果 配 置 50% 的 风险 资产 M 和 50% 的 无 风险 资产 C， 来 实现 投资 组 合 ， 则 公式 如 下 : 


CM1=0.5C+0.5M 


对 于 风险 激进 型 ,他们 对 于 资金 有 非常 高 的 收益 要 求 ， 本 金 可 以 部 分 或 全 部 损失 ， 这 些 资 金 通 常 都 是 “闲钱 ”， 就 是 用 来 进行 投资 活动 的 。 那 么 在 为 这 些 资 金 做 资 配置 方案 时 ， 可 以 全 部 投 到 M 上 ,下 
激进 点 ， 可 以 通过 借 钱 、 融 资 的 方式 ， 增 加 杠杆 ， 把 资金 放大 进行 投资 。 这 种 操作 风险 会 随 着 杠杆 的 放大 剧 增 ， 当 然 同时 你 也 会 有 更 大 的 收益 


如 图 2-6 中 的 CM2 点 ， 落 在 了 CM 的 延长 线 上 。 我 们 可 以 配置 150% 的 风险 资产 M， 同 时 用 50% 的 钱 去 抵押 以 无 风险 资产 C 的 收益 率 去 借 钱 。 公 式 如 下 : 


CM2=-0.5C+1.5M 


6. 风 险 和 收益 的 关系 


上 面 我 们 描述 了 风险 和 收益 的 关系 ， 主 要 是 从 思路 上 定性 介绍 ， 没 有 进行 定量 描述 ， 那 么 究竟 风险 和 收益 从 数学 上 怎 定义 呢 ? 


ip 


图 2-6 ”投资 组 合 管理 


图 2-7 风险 和 收益 关系 
对 图 2-7 的 解释 : 

. M 点 : 最 优 组 合 的 风险 资产 ; 

` C 点 : 无 风险 资产 ， 在 y 轴 上 ; 

. 10: 无 风险 资产 的 收益 率 ; 

.1M: M 点 的 收益 率 ; 

` x 轴 : op 为 风险 资产 的 收益 率 的 方差 

“ y 轴 : 印 为 收益 率 。 


根据 威廉 夏普 所 引入 的 均值 -方差 模型 ， 极 大 地 简化 了 计算 ， 就 是 解决 了 公式 计算 的 问题 。 用 方差 来 刻画 风险 ， 建 立 收 益 和 风险 的 一 元 线性 关系 。 可 以 用 下 面 公式 来 表示 : 


—Jo=AxX ow 


公式 解释 : 

. 卫 (frM) : 市 场 投资 组 合 的 预期 收益 率 ; 
“ft0: 无 风险 收益 率 ; 

` 巨 (rw) -t0， 市 场 投资 组 合 的 风险 溢价 ; 
. OM; 市 场 投资 组 合 方差 Var (ry) ; 
“A: 风险 厌恶 水 平 。 


有 了 公式 ， 我 们 就 明确 知道 风险 和 收益 的 定量 关系 ， 并 且 可 以 利用 数据 来 进行 计算 。 


由 


2.1.3 ”资本 资产 定价 模 


对 于 市 场 的 投资 组 合 ， 风 险 溢价 和 市 场 投资 组 合 的 方差 成 线性 关系 。 但 对 于 单个 资产 来 说 ， 收 益 和 风险 是 市 场 投资 组 合 组 成 的 一 分 部 ， 受 市 场 共同 变化 的 影响 。 


1. 单 个 资产 风险 溢价 


对 于 单个 资产 的 风险 来 说 ， 在 资本 资产 定价 模型 中 ， 用 PB 来 进行 表示 。B 是 衡量 单个 金融 资产 与 市 场 收益 的 共同 变化 程度 ， 通 过 协 方 差 来 计算 。 单 个 资产 的 风险 为 ， 当 前 资产 与 投资 组 合 收益 率 的 协议 
差 ， 除 以 投资 组 合 收益 率 的 方差 。 


单个 资产 的 风险 的 计算 公式 : 


; (Cov(r,, Pe / Var(rn) 


单个 资产 的 风险 溢价 的 计算 公式 ,: 


EF(r;) 一 


~ 
|| 


(ov(r, 1 / 0 


(Cov(7i， 4 / 07 ) ~ [E(rn) ry| 


= B: x [EC 一方 


对 公式 的 解释 : 

` 巨 (nn) : 风险 资产 i 的 预期 收益 ; 

. 卫 (fr ) : 市 场 投资 组 合 的 预期 收益 ; 

“ tf: 无 风险 资产 收益 ; 

Cov (fi，tm) : 风险 资产 收益 率 和 市 场 投资 组 合 收益 率 的 协 方差 
Var (tn) : 市 场 投资 组 合 的 收益 率 的 方差 。 


从 公式 可 以 看 出 ， 单 个 资产 的 风险 溢价 与 市 场 投资 组 合 M 的 风险 溢价 成 正比 ， 受 B 影 响 。 


资本 资产 定价 模型 ， 是 现 化 金融 学 的 基石 理论 。 在 上 述 假设 条 件 下 ， 可 以 推导 出 资本 资产 定价 模型 的 具体 公式 。 


单 的 ， 仅 用 到 了 简单 地 统计 学 知识 ， 但 是 前 人 却 花 了 很 长 的 时 间 研 究 和 探索 。 


己 ， 


收益 之 间 的 差 。 计 算 alpha 的 公式 为 : 


整个 的 推导 过 程 ， 就 是 上 面 文章 介绍 的 过 程 。 从 后 人 学 习 的 角度 看 ， 这 个 理论 是 比较 简 


由 B 值 判断 单个 资产 的 风险 ， 当 B=1 时 ， 则 说 明 当 前 资产 与 整个 市 场 的 趋势 是 完全 保持 一 致 的 ， 当 B 为 2 时 ， 代 表 高 风险 ， 其 回报 的 变化 将 大 于 市 场 大 盘 的 变化 幅度 ; 当 B 为 0.5 时 ， 代 表 是 低 风 险 的 资产 
配置 。 


资本 资产 定价 模型 定义 了 2 种 风险 ， 即 系统 性 风险 和 非 系统 性 风险 。 


系统 性 风险 是 由 外 部 因素 引起 的 风险 ， 比 如 通货 膨胀 、GDP、 重 大 政治 事件 等 等 。 这 一 类 事件 对 于 资产 收益 率 的 影响 不 能 


通过 组 合 本 身 来 消除 ， 所 以 这 一 类 风险 对 于 投资 者 来 说 是 无 法 回避 的 。 


非 系统 性 风险 是 组 合 内 部 结构 引起 的 风险 ， 比 如 : A 股 与 B 股 高 度 相 关 ，A 股 的 收益 率 出 现 大 幅 波动 的 时 候 ，B 股 也 会 出 现 相 似 幅 度 的 波动 ， 从 而 发 生 波峰 者 加 或 波 谷 亚 加， 就 会 增加 整个 组 合 的 风险 ; 反 
如 果 A 与 B 为 负 相关 ， 则 A 与 B 的 波动 就 会 相互 抵消 。 这 样 ， 风 险 是 由 组 合 里 的 资产 类 型 决定 的 ， 所 以 通过 多 样 化 分 散 的 投资 策略 ， 无 论 在 理论 还 是 实际 上 ， 这 种 风险 都 是 可 以 最 小 化 甚至 消除 的 。 而 在 这 
个 消除 的 过 程 中 ， 整 个 投资 组 合 的 收益 率 是 不 会 下 降 的 。 


4.2 种 收益 


与 风险 相对 应 的 是 收益 ,我 们 承受 了 2 种 风险 的 同时 ， 也 获得 了 风险 所 带 来 的 收益 。 一 部 分 是 与 市 场 完全 相关 收 


益 部 分 ， 即 beta (B) 收益 ; 另 一 部 分 与 市 场 不 相关 的 收益 部 分 ， 即 alpha (a) 收益 。 


beta 收 益 相 对 容易 获得 ， 例 如 ， 你 看 好 一 个 市 场 ， 以 低 成 本 买 入 对 应 市 场 的 指数 基金 ， 等 待 市 场 上 涨 。alpha 收 益 则 比较 难 获 得 ，alpha 是 体现 投资 水 平 的 策略 收益 ， 是 投资 组 合 的 实际 期 望 收益 与 预期 
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资 人 的 水 平 呢 ? 


首先 ， 求 出 A 证 券 的 预期 收益 率 6%+1.2x (14-6) %=15.6%， 再 用 投资 者 实际 收益 减 去 A 证 券 预 期 收益 17%-15.6%= 1.4%。 最 后 得 到 的 1.4% 就 是 alpha， 表 示 以 投资 者 能 力 ， 可 以 额外 获得 1.4% 的 收 


如 


5. 资 本 资产 定价 模型 的 应 用 场景 

进行 组 合 投资 分 散 风险 : 投资 者 可 以 按 市 场 组 合 的 构成 比例 分 散 持 有 多 种 风险 资产 ， 使 持 有 的 风险 资产 组 合 最 大 限度 地 接近 市 场 组 合 ， 以 达到 消除 非 系 统 风 险 的 目的 。 
调整 收益 风险 比例 : 将 无 风险 资产 与 风险 资产 市 场 组 合 进行 再 组 合 ， 以 获得 所 希望 的 个 性 化 的 风险 收益 组 合 。 

指数 化 投资 : 将 资产 配置 在 与 某 一 指数 相同 的 权重 的 投资 方法 ， 通 过 微调 权重 或 成 分 ， 获 得 比 指数 更 好 的 alpha。 

资产 定价 : 资本 资产 定价 模型 可 以 用 来 判断 有 价 证 券 或 其 他 金融 资产 的 市 场 价 格 是 否 处 于 均衡 水 平 、 是 否 被 高 估 或 低估 ， 以 便 通过 套利 活动 获取 超额 收益 。 


基金 购买 : 举 一 个 贴近 市 场 的 例子 ， 当 我 们 要 购买 基金 时 ， 也 可 以 用 到 资本 资产 定价 模型 ， 以 帮助 我 们 分 析 。 比 如 ， 基 金 A 的 期 望 收益 率 12%， 风 险 B=1， 基 金 B 期 望 收益 率 13%，B=1.5， 市场 期 望 收 
益 率 11%， 无 风险 资产 收益 率 ro=5%。 那 么 哪 只 基金 更 值得 买 ? 


当 你 每 天 打开 支付 宝 ， 看 到 里 面 的 各 种 基金 推荐 ， 就 会 发 现 这 是 一 个 实际 的 问题 。 如 果 你 学 会 了 上 述 方 法 ， 按 照 资 本 资产 定价 模型 的 思路 进行 判断 ， 其 实 购买 基金 就 是 求 alpha， 哪 个 基金 的 alpha 高 ， 
束 买 哪个 。 


求 alpha， 我 们 就 直接 套用 公式 。 


aa=12-5—-1x[11-5]1= 1% 
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图 2-8 ”基金 alpha 计 算 


基金 A 的 alpha 为 1%， 而 基金 B 的 alpha 为 -1%。 结 论 就 很 明显 ， 基 金 A 的 管理 人 能 力 很 好 ， 超 额 收益 1%; 而 基金 B 的 管理 人 ， 就 差 一 些 ， 盔 利 低 于 市 场 1%。 所 以 ， 我们 会 投资 基金 A， 而 不 会 投资 基金 


2.1.4 用 R 构 建 投 资 组 合 模型 


上 文 用 了 大 量 的 篇 幅 介绍 了 资本 资产 定价 模型 的 原理 ， 但 它 的 程序 实现 其 实 是 相当 简单 的 。 因 为 在 R 语 言 中 ， 已 经 把 资本 资产 定价 模型 相关 的 计算 函数 都 封包 好 了 ， 我 们 仅仅 进行 调用 就 能 完成 整个 的 计 


R 语 言 程序 实现 ， 我 们 主要 会 用 到 2 个 包 ， 即 quantmod 包 和 PerformanceAnalytics 包 。 对 于 Ri 语言 有 哪些 量化 投资 的 包 ， 可 以 参考 1.1 节 。 
. quantmod 包 用 于 下 载 数据 ; 

“ PerformanceAnalytics 包 用 于 进行 各 种 评价 指标 计算 。 

我 们 设计 一 个 应 用 场景 ， 假 如 我 们 有 10 万 美元 要 投资 美国 的 股市 ， 想 获得 比 标 普 好 (SP500) 的 投资 收益 ， 那 么 应 该 如 何 购 买 股票 ? 


首先 ， 要 想 清 楚 ， 我 最 终 的 目标 是 “ 比 标 普 好 的 投资 收益 ”。 其 次 ， 我 们 基于 资本 资产 定价 模型 理论 基础 ， 从 投资 组 合 角度 思考 投资 策略 ， 而 不 是 技术 指标 的 角度 。 比 标 普 好 ， 那 么 我 们 就 需要 以 标 普 


王 


指数 做 为 理想 投资 组 合 。 然 后 ， 我 们 去 市 场 上 选择 几 个 股票 ， 分 别 计 算出 收益 率 、beta、alpha 等 指标 ， 判 断 是 否 符合 预期 ， 反 复 测试 ， 直 到 找到 合适 的 股票 或 股票 组 合 。 
本 节 只 是 案例 介绍 ， 用 于 说 明 投 资 思路 和 方法 ， 不 构成 任何 的 股票 推荐 。 
本 节 所 使 用 的 系统 环境 : 
* Win1064bit 


* R: 3.2.3 x86_64-w64-mingew32/x64 b4bit 


从 Yahoo 下 载 1BM、GE (通用 电器 ) 、YHOO (Yahoo) 3 只 股票 ， 以 及 从 2010 年 01 月 01 日 开始 的 日 行情 数据 ， 同 时 下 载 标 普 指数 (SP500) 的 日 行情 数据 。 


执行 R 语 言 程序 : 


# 加 载 程序 包 
> library (quantmod) 


library (PerformanceAnalytics) 


# 从 yahoo 下 载 3 只 股票 的 数据 ， 和 SP500 的 数据 
> getSymbols (c('IBM','GE','YHOO','^GSPC'), 


> 


from = '2010-01-01') 


# 打印 前 6 行 和 后 6 行 数据 
> head (GSPC) 

open high low close volume adjusted 
2010-01-04 1116.56 1133.87 1116.56 1132.99 3991400000 132.99 
2010-01-05 1132.66 1136.63 1129.66 1136.52 2491020000 1136.52 
2010=01=06 1135,.71 1139,.19 11]33.95 1137.,.14 4972660000 137.14 
2010-01-07 1136.27 1142.46 1131.32 1141.69 5270680000 1141.69 
2010-01-08 1140.52 1145.39 1136.22 1144.98 4389590000 1144.98 
2010-=01-=11 1145.96 1149.74 1142.02 1146.98 4255780000 1146.98 
> tail (GSPC) 

open high low close volume adjusted 
2016-=12=20 2266.50 2272.56 2266.14 2270.76 3298780000 2270.76 
2016-12-21 2270.54 2271.23 2265.15 2265.18 2852230000 2265.18 
2016-12-22 2262.93 2263.18 2256.08 2260.96 2876320000 2260.96 
2016-12-23 2260.25 2263.79 2258.84 2263.79 2020550000 2263.79 
2016-12-27 2266.23 2273.82 2266.15 2268.88 1987080000 2268.88 
2016-12-28 2270.23 2271.31 2249.11 2249.92 2392360000 2249.92 


画 出 SP500 的 K 线 图 ， 如 图 2-9 所 示 。 


> barChart (GSPC) 
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图 2-9 SP500 的 开 线 图 


对 调整 后 的 4 个 品种 的 价格 进行 合并 。 


> # 改 列 名 
> names (IBM) <-c ("open", "high", "low", "close", "volume", "adjusted") 
> names (GE) <-c ("open", "high", "low", "close", "volume" "adjusted") 
> names (YHOO) <-c ("open", "high", "low", "close", "volume", "adjusted") 
> names (GSPC) <-c ("open", "high", "low", "close", "volume", "adjusted") 
# 数据 合并 
> dat=merge (IBM$adjusted, GE$adjusted, YHOO$adjusted,GSPC$adjusted) 
> names (dat) <-c('IBM', 'GE', 'YHOO', 'SP500°') 
# 打印 前 6 行 
> head (dat) 
IBM GE YHOO SP500 
2010-01-04 112.2859 12.27367 17.10 1132.99 
2010-01-05 110.9295 12.33722 17.23 1136.52 
2010-01-06 110.2089 12.27367 17.17 1137.14 
2010-01-07 109.8274 12.90920 16.70 1141.69 
2010-01-08 110.9295 13.18724 16.70 1144.98 
2010-01-11 109.7680 13.31435 16.74 1146.98 
计算 每 日 收益 率 ， 合 并 收益 率 到 dat _ret。 
> dat ret=merge (IBM ret,GE ret,YHOO ret,SP500 ret) 
> names (dat ret)<-c('IBM', 'GE','YHOO', 'SP500') 
> head (dat ret) 

加 [BM GE YHOO SP500 
2010-01-04 0.009681385 0.015111695 0.009445041 0.0147147759 
2010-01-05 -0.012079963 0.005177994 0.007602339 0.0031156762 
2010-01-06 -0.006496033 -0.005151320 -0.003482298 0.0005455205 
2010-01-07 -0.003461515 0.051779935 -0.027373267 0.0040012012 
2010-01-08 0.010034759 0.021538462 0.000000000 0.0028817272 
2010-01-11 -0.010470080 0.009638554 0.002395150 0.0017467554 


定义 无 风险 收益 率 为 4%， 计 算 4 个 资产 的 平均 年 化 收益 率 。 


# 无 风险 收益 率 
> Rf<-0.04/12 


# 计算 平均 年 化 收益 率 ， 平 均 年 化 标准 差 ， 平 均 年 化 Sharpe 


> results<-table.AnnualizedReturns (dat ret,Rf=Rf) 
> results 

IBM GE YHOO SP500 
Annualized Return 0.0345 0.1108 0.1257 0.1055 
Annualized Std Dev 0.1918 0.2180 0.3043 0.1555 
Annualized Sharpe (Rf=84%) -2.8892 -2.3899 -1.6911 -3.3659 


从 平均 年 化 收益 率 可 以 看 到 ， 这 段 时 间 标 普 的 平均 年 化 收益 率 有 10%， 已 经 是 非常 不 错 的 成 绩 了 ， 如 果 要 想 超过 标 普 绝 非 易 事 。 


我 们 再 进行 统计 指标 分 析 ， 从 另外 一 个 维度 看 一 下 数据 的 情况 。 


# 计算 统计 指标 
> table.Stats (dat ret) 


BM GE YHOO SP500 
Observations 1760.0000 1760.0000 1760.0000 1760.0000 
NAs 0.0000 0.0000 0.0000 0.0000 
Minimum -0.0828 -0.0654 -0.0871 -0.0666 
Quartile 1 -0.0060 -0.0065 -0.0098 -0.0039 
Median 0.0002 0.0004 0.0005 0.0005 
Arithmetic Mean 0.0002 0.0005 0.0007 0.0004 
Geometric Mean 0.0001 0.0004 0.0005 0.0004 
Quartile 3 0.0067 0.0077 0.0112 0.0053 
Maximum 0.0567 0.1080 0.1034 0.0474 
SE Mean 0.0003 0.0003 0.0005 0.0002 
LCL Mean (0.95) -0.0004 -0.0001 -0.0002 0.0000 
UCL Mean (0.95) 0.0008 0.0012 0.0015 0.0009 
Variance 0.000]1 0.0002 0.0004 0.0001 
Stdev 0 .0121 0.0137 0.0192 0.0098 
Skewness -0.5876 0.3084 0.0959 = 3354 
Kurtosis 4.6634 4.7294 2.9990 4.015] 


通过 统计 指标 分 析 ， 每 个 资产 有 1760 个 样本 点 ， 没 有 NA 值 。 在 日 最 小 收益 率 方面 ，YHOO 为 -0.0871。 而 在 日 最 大 收益 率 方面 ，GE 为 0.1080。 算 数 平均 、 几 何平 均 、 方 差 、 标 准 差 都 是 YHOO 最 大 。 


画 出 IBM 股 票 的 日 收益 图 (图 2-10) 、 月 收益 图 (图 2-11) ， 以 及 4 个 资产 的 累积 收益 率 图 (图 2-12) ， 并 对 4 个 资产 做 相关 性 分 析 。 
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图 2-10 ” IBM 股票 每 日 收益 
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图 2-11 IBM 股 票 每 月 收益 
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图 2-12 4 个 品种 的 累积 收益 率 图 


从 图 2-12 中 可 以 看 出 ，GE 和 SP500 的 走势 基本 稳 合 ， 说 明 GE 在 从 2010 开 始 在 跟着 美国 经 济 持续 发 展 。YHOO 从 2013 年 年 初 到 2015 年 年 初 大 幅 拉 升 ， 领 先 于 SP500 很 多 ,说明 这 段 时 期 YHOO 所 处 的 互 
联网 行业 ， 带 来 了 非常 大 的 市 场 红利 ; 从 2015 年 到 2016 年 ， 又 下 跌 很 大 ， 大 起 大 落 ， 受 市 场 影响 非常 敏感 。1BM 大 部 分 时 间 都 处 于 SP500 的 下 方 ， 说 明美 国 经 济 这 几 年 的 高 速 发 展 ， 并 没有 给 1|BM 带 来 很 大 
的 发 展 空间 。 如 果 从 我 们 的 目标 来 说 ，“ 比 标 普 好 的 投资 收益 ”， 那 么 我 们 只 能 选择 GE 或 YHOO。 


相关 性 分 析 
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图 2-13 ”相关 性 分 析 


对 4 个 品种 进行 相关 性 分 析 ， 发 现 GE 和 SP500 相 关系 数 为 0.78， 股票 中 相关 度 最 高 的 。 而 YHOO 是 与 其 他 3 个 品种 走势 最 不 一 样 的 。 


最 后 ， 以 SP500 为 市 场 组 合 ， 分 别 计算 出 3 只 股票 的 aljpha 和 beta。 


# 计算 alpha 
> CAPM.alpha (dat retl[,1:3],dat ret[,4],Rf=Rf) 

IBM GE YHOO 
Alpha: SP500 -0.000752943 0.0003502332 0.0003944279 
# 计算 peta 
> CAPM.betal(dat ret[,1:3],dat ret[,4],Rf=Rf) 


[TBM GE YHOO 
Beta: SP500 0.8218135 1.098877 1.064844 


在 3 只 股票 中 ，IBM 的 alpha 是 最 小 的 ， 而 且 是 负 的 ， 说 明 IBM 落 后 于 市 场 ， 买 1BM 不 如 直接 买 ?P500 更 好 。GE 的 Beta 是 最 大 的 ， 在 上 升 时 期 beta 越 大 ， 获 得 的 市 场 收益 也 会 越 大 。 从 YHOO 的 Alpha 和 


Beta 上 看 ， 虽 然 与 GE 接近 ， 但 标准 差 、 最 大 回 撤 等 指标 过 大 ， 会 导致 波动 太 大 。 


综 上 所 述 ， 配 置 部 分 GE 和 部 分 YHOO， 就 可 以 获得 比 标 普 好 的 收益 ， 但 由 于 GE 和 YHOO 的 beta 都 高 于 SP500， 所 以 风险 也 会 高 于 SP500， 需 要 增加 新 的 股票 来 分 散 风险 ， 具 体 的 定量 分 析 将 在 后 面 的 文 


章 中 再 进行 介绍 。 
2.1.5 Beta VS Alpha 
最 后 ， 补 充 一 些 alpha 和 Beta 的 说 明 。alpha 和 beta 的 认 知 最 早起 源 于 一 个 股市 的 概念 ， 是 一 个 关于 投资 组 合 的 收益 率 分 解 的 问题 
. alpha: 一 般 被 认为 是 投资 组 合 的 超额 收益 ， 即 管理 人 的 能 力 。 
“ beta: 市 场 风 险 ， 最初 主 要 指 股票 市 场 的 系统 性 风险 。 
alpha 是 平均 实际 回报 和 平均 预期 回报 的 差额 。 
` a>0: 基金 或 股票 的 价格 可 能 被 低估 ， 建 议 买 入 。 
a<0: 基金 或 股票 的 价格 可 能 被 高 估 ， 建 议 卖 空 。 
` x=0: 基金 或 股票 的 价格 准确 反映 其 内 在 价值 ， 未 被 高 估 也 未 被 低估 。 
beta 反 映 了 单个 证 券 与 整体 市 场 组 合 的 联动 性 。 
` B>1: 攻击 性 , 市 场 上 升 时 涨幅 大 


“ B<1: 防御 性 ， 市场 下 跌 时 跌幅 小 。 


B=1: 中 立 性 ， 与 市 场 疲 动 一 致 。 

资本 资产 定价 模型 发 展 至 今 ， 已 经 有 很 长 的 时 间 了 。 人 金融 理论 在 一 直 发 展 ， 继 资本 资产 定价 模型 之 后 又 一 重要 的 理论 突破 是 套利 定价 理论 ， 我 将 在 我 的 博客 中 进行 介绍 。 
本 节 详 细 地 介绍 了 资本 资产 定价 模型 的 金融 理论 、 推 导 过 程 ， 以 及 Ri 否 言 实现 。 和 希望 能 给 走 在 量化 道路 上 的 朋友 带 来 入 门 的 指引 和 帮助 ， 也 希望 找到 像 我 一 样 ， 通 过 IT 转 金融 的 人 ， 让 我 们 一 起 用 IT 技术 
+ 金融 的 思维 在 金融 市 场 奋 斗 吧 。 


[ 由 于 本 节 内 容 为 非 金 融 教材 类 ， 所 以 当 出 现 与 教 课 书 不 符 的 描述 ， 请 以 教 课 书 为 准 。 本 节 力 求 用 简化 的 语言 ， 来 介绍 自 资本 资产 定价 模型 的 知识 ， 同 时 配合 R 语 言 的 实现 。 


2.3 Ri 语言 解读 多 元 线性 回归 模型 


问题 


如 何 用 R 语 言 做 多 元 线性 回归 分 析 ? 


R 语 言 解 苇 多 元 线性 回归 模型 


http://blog.fens.me/r-multi-linear-regression 


Y= Bo + BiXit+ P2X2 + 四 四 本 PnXn + 十 到 
Pe 


在 许多 生活 和 工作 的 实际 问题 中 ， 影 响 因 变量 的 因素 可 能 不 止 一 个 ， 比 如 对 于 知识 水 平 越 高 的 人 ， 收 入 水 平 也 越 高 ， 这 样 的 一 个 论述 。 这 其 中 可 能 包括 了 因为 有 更 好 的 家 庭 条 件 ， 所 以 有 了 更 好 的 教 
育 ; 因为 在 一 线 城市 发 展 ， 所 以 有 了 更 好 的 工作 机 会 ; 所 处 的 行业 赶 上 了 大 的 经 济 上 行 周期 等 。 这 些 共同 的 因素 导致 了 较 高 的 收入 水 平 。 这 些 规 律 是 复杂 的 、 多 维度 的 ， 多 元 回归 分 析 方 法 更 适合 解读 生活 


的 规律 。 
2.3.1 多 元 线性 回归 介绍 

对 比 一 元 线性 回归 ， 多 元 线性 回归 是 用 来 确定 2 个 或 2 个 以 上 变量 间 关 系 的 统计 分 析 方 法 。 多 元 线性 回归 的 基本 的 分 析 方 法 与 一 元 线性 回归 方法 是 类 似 的 ， 我 们 首先 需要 选取 多 元 数据 集 并 定义 数学 模 
型 ， 然 后 进行 参数 估计 ， 对 估计 出 来 的 参数 进行 显著 性 检验 、 残 差分 析 、 异 常 点 检测 ， 最 后 确定 回归 方程 并 进行 模型 预测 。 

由 于 多 元 回归 方程 有 多 个 自 变量 ， 区 别 于 一 元 回归 方程 ， 有 一 项 很 重要 的 操作 就 是 自 变 量 的 优化 ， 挑 选 出 相关 性 最 显著 的 自 变 量 ， 同 时 去 除 不 显著 的 自 变量 。 在 R 语 言 中 ， 有 很 方便 地 用 于 优化 自 变 量 的 
函数 ， 可 以 很 好 地 帮助 我 们 改进 回归 模型 。 下 面 就 开始 多 元 线性 回归 的 建 模 过 程 。 

本 节 所 使 用 的 系统 环境 : 

+ Win1064bit 


* R: 3.2.3 x86_64-w64-mingew32/x64 b4bit 


2.3.2 ”多 元 线性 回归 建 模 

做 过 商品 期 货 研究 的 人 ， 都 知道 黑色 系 品种 是 具有 产业 链 上 下 游 的 关系 。 铁 矿石 是 炼 钢 的 原材料 ， 焦 煤 和 焦炭 是 炼 钢 的 能 源 资 源 ， 热 卷 即 热 轧 卷 板 是 以 板 坯 为 原料 经 加 热 后 制 成 的 钢板 ， 螺 纹 钢 是 表面 
带 肋 的 钢筋 。 

由 于 产业 链 的 关系 ， 假 设 我 们 想 要 预测 螺纹 钢 的 价格 ， 那 么 影响 螺纹 钢 价格 的 因素 可 能 会 涉及 原材料 、 能 源 资源 和 同类 材料 等 。 比 如 ， 我 们 直观 上 认为 ， 如 果 铁 矿石 价格 上 涨 ， 螺 纹 钢 就 应 该 要 涨 价 
了 。 和 那么 当 铁 矿 石 1 吨 涨 1000 元 后 ， 螺 纹 钢 1 吨 涨 多 少 钱 ” 靠 经 验 就 可 能 估计 不 准 ， 需 要 定量 地 做 计算 。 

1. 数 据 集 和 数学 模型 


先 从 数据 开始 介绍 ， 这 次 的 数据 集 ， 我 选择 的 是 黑色 系 的 商品 期 货 ， 包 括 了 大 连 期 货 交 易 所 的 焦煤 (JM) 、 焦 炭 (J) 、 铁 矿石 (1) ， 上 海 期 货 交 易 所 的 螺纹 钢 (RU) 和 热 卷 (HC) 。 


J 1 


数据 集 为 2016 年 3 月 15 日 当日 白天 开盘 的 交易 数据 ， 为 黑色 系 的 5 个 期 货 合约 的 分 钟 线 的 价格 数据 ， 保 存 为 文件 future.csv。 


加 载 类 库 


# 
> library (xts) 
> 
> 


library (reshape2) 
library (ggplot2) 


# 设置 环境 变量 


> options (stringsAsFactors = FALSE) 


# 读 取 数据 


> dat<-read.csv (f ijle="future.csv", sep=",") 


# 转型 为 xts 格 式 


> df<-xts (dat [,-1],order.by=as.Date (dat[,11])) 
# 0 
> head (df,2 


xl1 X2 X3 x4 y 
2016-03-15 09:01:00 754.5 616.5 426.5 2215 2055 
2016-03-15 09:02:00 752.5 614.5 423.5 2206 2048 


2016-03-15 09:03:00 753.0 614.0 423.0 2199 2044 
2016-03-15 09:04:00 752.5 613.0 422.5 2197 2040 
2016-=03-=15 09:05:00 753.0 615.5 424.0 2198 2043 
2016-03-15 09:06:00 752.5 614.5 422.0 2195 2040 
2016-03-15 09:07:00 752.0 614.0 421.5 2193 2036 
2016-03-15 09:08:00 753.0 615.0 422.5 2197 2043 
2016-03-15 09:09:00 754.0 615.5 422.5 2197 2041 
2016-03-15 09:10:00 754.5 615.5 423.0 2200 2044 
2016-03-15 09:11:00 757.0 616.5 423.0 2201 2045 
2016-03-15 09:12:00 756.0 615.5 423.0 2200 2044 
2016-03-15 09:13:00 755.5 615.0 423.0 2197 2042 
2016-03-15 09:14:00 755.5 615.0 423.0 2196 2042 
2016-03-15 09:15:00 756.0 616.0 423.5 2200 2045 
2016-03-15 09:16:00 757.5 616.0 424.0 2205 2052 
2016-03-15 09:17:00 758.5 618.0 424.0 2204 2051 
2016=03-15 09:18:00 759.5 618.5 424.0 2205 2053 
2016-03-15 09:19:00 759.5 617.5 424.5 2206 2053 
2016-03-15 09:20:00 758.5 617.5 423.5 2201 2050 
数据 集 包 括 6 列 : 
. 索引: 时 间 ; 


.xl1: 焦炭 (j1605) 合约 的 1 分 钟 线 的 报价 数据 ; 

. x2: 焦煤 (jm1605) 合约 的 1 分 钟 线 的 报价 数据 ; 
` x3; 铁 矿 石 (i1605) 合约 的 1 分 钟 线 的 报价 数据 ; 
. x4: 热 卷 (hc1605) 合约 的 1 分 钟 线 的 报价 数据 ; 
“y: 曼 纹 钢 (rb1605) 合约 的 1 分 钟 线 的 报价 数据 。 


假设 螺纹 钢 的 价格 与 其 他 4 个 商品 的 价格 有 线性 关系 ， 那 么 我 们 建立 以 螺纹 钢 为 因 变 量 ， 以 焦煤 、 焦 痰 、 铁 矿石 和 热 卷 的 为 自 变量 的 多 元 线性 回归 模型 。 用 公式 表示 为 : 


OO 


` 29: 自 变量 ， 铁 矿石 ; 


x4: 自 变 量 ， 热 卷 ; 


“8: 残 差 ， 是 其 他 一 切 不 确定 因素 影响 的 总 和 ， 其 值 不 可 观测 。 假 定 es 服 从 正 态 分 布 N (0，c'^2) 。 
通过 对 多 元 线性 回归 模型 的 数学 定义 ， 接 下 来 让 我 们 利用 数据 集 做 多 元 回归 模型 的 参数 估计 。 
2. 回 归 参 数 估计 


上 面 公式 中 ， 回 归 参 数 a、b、c、d、e 都 是 我 们 不 知道 的 ， 参 数 估计 就 是 通过 数据 来 估计 出 这 些 参数 ， 从 而 确定 自 变量 和 因 变 量 之 前 的 关系 。 我 们 的 目标 是 要 计算 出 一 条 直线 ， 使 直线 上 每 个 点 的 Y 值 和 
实际 数据 的 Y 值 之 差 的 平方 和 最 小 ， 即 (Y1 实 际 -Y1 预 测 ) ^2+ (Y2 实 际 -Y2 预 测 ) ^2+.…..+ (Yn 实际 -Yn 预测 ) ^2 的 值 最 小 。 参 数 估计 时 ， 我 们 只 考虑 Y 随 X 自 变量 的 线性 变化 的 部 分 ， 而 残 差 = 是 不 可 观 
测 的 ， 参 数 估计 法 并 不 需要 考虑 残 差 。 


类 似 于 一 元 线性 回归 ， 我 们 用 R 语 言 来 实现 对 数据 的 回归 模型 的 参数 估计 ， 用 Im () 函数 来 实现 多 元 线性 回归 的 建 模 过 程 。 


# 建立 多 元 线性 回归 模型 
> lml<-lm(y~xl+x2+x3+x4,data=df) 


# 打印 参数 估计 的 结果 
> lm] 


jm(formula =y ~ xl + x2 + x3 + x4, data = df) 


Coeff icients: 
(Intercept) 又 | x2 x3 x4 
212.8780 0.8542 0.6672 -0.6674 0.4821 


这 样 我 们 就 得 到 了 y 和 x 关 系 的 方程 。 
y=212.8780 +0.8542*xl+0.6672* x2—0.60674 ”7X3 十 0.4821 * x4 


3. 回 归 方程 的 显著 性 检验 


参考 一 元 线性 回归 的 显著 性 检验 ， 多 元 线性 回归 的 显著 性 检验 ， 同 样 是 需要 经 过 T 检 验 ，F 检 验 ， 以 及 R^2 (R 平 方 ) 相关 系统 检验 。 在 R 语 言 中 这 三 种 检验 的 方法 都 已 被 实现 ， 我 们 只 需要 把 结果 解读 ， 
我 们 可 以 summary () 函数 来 提取 模型 的 计算 结果 。 


> summary (lml) 


Call: 
jm(formula =y ~ xl + x2 + x3 + x4, data = df) 
Residuals: 

Min 10 Median 30 Max 


-4.9648 -1.3241 -0.0319 1.2403 5.4194 


Coeff icients: 


Estimate Std. Error t Value Pr (>|t|) 
(Intercept) 212.87796 58.26788 3.653 0.000323. *** 
xl1 0.85423 0.10958 7.795 2.50e-13 *** 
x2 0.66724 0.12938 5.157 5.957e=07 *** 
X3 -0.66741 0.15421 -4.328 2.28e-05 *** 
X4 0.48214 0.01959 24.609 < 2e-16 *** 


Signif, Godes: 0O Ww**/ O00L Wer OO Mw O05 Ve 林寺 


Residual standard error: 2.028 on 221 degrees of freedom 
Multiple R-squared: 0.9725, Adjusted R-squared: 0.972 
F-statistic: 1956 on 4 and 221 DF, p-value: < 2.2e-16 


. 工 检验 : 所 有 自 变量 都 是 非常 显著 *## ; 
. 上 检验 : 同样 是 非常 显著 ，p-value<2.2e-16; 
. 调整 后 的 R2: 相关 性 非常 强 为 0.972。 


最 后 ， 我 们 通过 的 回归 参数 的 检验 与 回归 方程 的 检验 ， 得 到 最 后 多 元 线性 回归 方程 : 
y=212.87796+0.85423*xl +0.606724 *x2—0.66741 * x3+0.48214 * x4 
妈 


螺纹 钢 = 212.87796 + 0.8$423 * 焦 奖 十 0.66724 * 焦煤 一 0.66741 * 铁 矿 石 十 0.48214* 热 卷 


4. 残 差分 析 和 异常 点 检测 


在 得 到 的 回归 模型 进行 显著 性 检验 后 ， 还 要 再 做 残 差 分 析 (预测 值 和 实际 值 之 间 的 差 ) ， 检 验 模型 的 正确 性 ， 残 差 必 须 服从 正 态 分 布 N (0，o^2) 。 直 接 用 plot () 函数 生成 4 种 用 于 模型 诊断 的 图 
形 ， 进 行 直 观 地 分 析 。 


` 残 差 和 拟 合 值 (左上 ) ， 残 差 和 拟 合 值 之 间 数 据点 均匀 分 布 在 y=0 两 侧 ， 呈 现 出 随机 的 分 布 ， 红 色 线 呈现 出 一 条 平稳 的 曲线 并 没有 明显 的 形状 特征 。 
` 残 差 QQ 图 (右上) ， 数 据点 按 对 角 直 线 排列 ， 趋 于 一 条 直线 ， 并 被 对 角 直 接 穿 过 ， 直 观 上 符合 正 态 分 布 。 

* 标准 化 残 差 平方 根 和 拟 合 值 〈 左 下) ， 数 据点 均匀 分 布 在 y=0 两 侧 ， 呈 现 出 随机 的 分 布 ， 红 色 线 呈现 出 一 条 平稳 的 曲线 并 没有 明显 的 形状 特征 。 

“ 标准 化 残 差 和 杠杆 值 ( 右 下 ) ， 没 有 出 现 红色 的 等 高 线 ， 则 说 明 数 据 中 没有 特别 影响 回归 结果 的 异常 


: 没有 明显 的 异常 点 ， 残 差 符 合 假设 条 件 。 
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图 2-24 多 元 回归 残 差 检验 
5. 模 型 预测 


我 们 得 到 了 多 元 线性 回归 方程 的 公式 ， 就 可 以 对 数据 进行 预 则 了 。 我 们 可 以 用 R 语 言 的 predict () 函数 来 计算 预测 值 yo 和 相应 的 预测 区 间 ， 并 把 实际 值 和 预测 值 一 起 可 视 展 示 。 


> par (mfrow=c (1,1))  # 设 置 画 面 布局 


# 预测 计算 


> dfp<-predict (lml,interval="prediction") 


# 打印 预测 值 
> head (dfp, 10) 


fit lwr upr 
2014-03-21 3160.526 3046.425 3274.626 
2014=03=24 3193;233 3078:.868. 3307..637 
2014=03=25 .3240.389 3126.171 .33534;607 
2014-03-26 3228.565 3114.420 3342.710 
2014=03=27 3222;5528. 3108,342 3336./13 
2014-03-28 3262.399 3148.132 3376.666 
2014-03-31 3291.996 3177.648 3406.344 

3 

3 

3 


2014-04-01 3305.870 3191.447 3420.294 
2014=04=02 3275,370 31612018 3389.7123 
2014=04-03 .3297.358 3182.960-3444.。/55 


# 合并 数据 
> mdf<-merge (df$y,d 


# 画图 ， 如 图 2-25 所 示 


> draw (mdf) 
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图 2-25 ”模型 预测 分 析 
图 例 说 明 


` y: 实际 价格 ， 红 色 线 ; 
“ ft: 预测 价格 ， 绿 色 线 ; 
.1wf: 预测 最 低 价 ， 蓝 色 线 ; 
.upf: 预测 最 高 价 ， 紫 色 线 。 


从 图 中 看 出 ， 实 际 价格 y 和 预测 价格 ft， 在 大 多 数 的 时 候 都 是 很 贴近 的 。 我 们 的 一 个 模型 就 训练 好 了 ! 


2.3.3 ”模型 优化 


系 了 


上 文中 ， 我 们 已 经 很 顺利 地 发 现 了 一 个 非常 不 错 的 模型 。 如 果 要 进行 模型 优化 ， 可 以 用 R 语 言 中 update () 函数 进行 模型 的 调整 。 我 们 首先 检查 一 下 每 个 自 变 量 x1、x2、x3、x4 和 因 变 量 y 之 间 的 关 
其 配对 展示 图 如 图 2-26 所 示 。 


# 各 变量 之 间 的 关系 


> pairs (as.data.frame (df)) 


从 图 2-26 中 我 们 可 以 发 现 ，x2 与 y 的 关系 可 能 是 最 偏离 线性 的 。 那 么 ， 我 们 尝试 对 多 元 线性 回归 模型 进行 调整 ， 从 原 模型 中 去 掉 x2 变 量 。 


# 模型 调整 
> lm2<-update (lml, .~. -x2) 


> summary (1m2) 


Call: 
lm(formula =y ~ xl + x3 + x4, data = df) 
Residuals: 

Min 10 Median 30 Max 


=650039 =1.3842 ‘0.0177 1.3513 4.8028 


Coeff icients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 462.47104 34.26636 13.50 < 2e-16 *** 
xl1 1.08728 0.10543 10.31 < 2e-16 *** 
X3 -0.40788 0.15394 -2.65 0.00864 ** 
x4 0.42582 0.01718 24.79 < 2e-16 *** 


Signif. codes: 
0 wr*r O00L WEES QOL WE ODS Vr Ol VEL 


Residual standard error: 2.142 on 222 degrees of freedom 
Multiple R-squared: 0.9692, Adjusted R-squared: 0.9688 
F-statistic: 2330 on 3 and 222 DF, p-value: < 2.2e-16 
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图 2-26 ”配对 展示 
当 把 自 变量 x2 去 掉 后 ， 自 变量 x3 的 T 检 验 值 反 而 变 大 了 ， 同 时 Adjusted R-squared 变 小 了 ， 所 以 我 们 这 次 调整 是 有 问题 的 。 


通过 生产 和 原材料 的 内 在 逻辑 分 析 ， 焦 煤 与 焦炭 属于 上 下 游 天 系 。 焦 煤 是 生产 焦炭 的 一 种 原材料 ， 焦 炭 是 焦煤 与 其 他 炼焦 煤 经 过 配 煤 焦化 形成 的 产品 ， 一 般 生产 1 吨 焦炭 需要 1.33 吨 炼焦 煤 ， 其 中 焦煤 至 
少 占 30%。 


我 们 把 焦煤 和 焦炭 的 关系 改变 一 下 ， 增 加 x1*x2 的 天 系 并 匹配 到 模型 ， 看 看 效果 。 


# 模型 调整 


> lm3<-update (lml, .~. + xl*x2) 
> summary (1m3) 
Calls 
lm(formula =y ~ xl] + x2 + x3 + x4 + xl:x2, data = df) 
Residuals: 
Min 10 Median 30 Max 


=4:8110 =1;3501 =0.0595 .2019 ‘S53884 


Coeff icients: 


Estimate Std. Error 七 Value Pr(>|t|) 


(Intercept) 7160.32231 7814.50048 0.916 0..361 
XI -8.45530 10.47167 -0.807 0.420 
X2 -10.58406 12.65579 -0.836 0.404 
X3 -0.64344 0:15662 ~=4.108 5.63e=05 *** 
x4 0.48363 0.01967 24.584 < 2e-16 *** 
Xl :x2 0.01505 0.01693 0.889 0.375 


Signif. codes: 
OEREL O00L MRT QOL MAF O05 yr Ol YY 


Residual standard error: 2.029 on 220 degrees of freedom 
Multiple R-squared: 0.9726, Adjusted R-squared: 0.972 
F-statistic: 1563 on 5 and 220 DF, p-value: < 2.2e-16 


从 结果 中 发 现 ， 增 加 了 x1*x2 列 后 ， 原 来 的 x1、x2 和 Intercept 的 T 检 验 都 不 显著 。 继 续 调 整 模型 ， 从 模型 中 去 掉 x1，x2 两 个 自 变 量 。 


# 模型 调整 


> lm4<-update (lm3, .~. -xl-x2) 
> summary (1m4) 
Call: 
lm(formula =y ~ x3 + x4 + xl:x2, data = df) 
Residuals: 
Min 10 Median 30 Max 


-4.9027 -1.2516 -0.0167 1.2748 5.8683 


Coeff icients: 


Estimate Std. Error 七 Value Pr (>|t|) 


(Intercept) 6.950e+02 1.609e+01 43.183 < 2e-16 *** 
X3 -6.284e-01 1.530e-01 -4.108 5.61e-05 *** 
X4 4.959e-01 1.785e-02 27.783 < 2e-16 *** 
x1 :x2 1.133e-03 9.524e-05 11.897 < 2e-16 *** 
Signif,. codeess 0 Ww OO0L xr O00L ww O05 ™." 0.L YT 1 


Residual standard error: 2.035 on 222 degrees of freedom 
Multiple R-squared: 0.9722, Adjusted R-squared: 0.9718 
F-statistic: 2588 on 3 and 222 DF, p-value: < 2.2e-16 


从 调整 后 的 结果 来 看 ， 效 果 还 不 错 。 不 过 ， 也 并 没有 比 最 初 的 模型 有 所 提高 。 


对 于 模型 调整 的 过 程 ， 在 我 们 手动 调整 测试 时 ， 一 般 都 会 基于 业务 知识 来 操作 。 如 果 是 按照 数据 指标 来 计算 ， 我 们 可 以 用 R 语 言 中 提供 的 逐步 回归 的 优化 方法 ， 通 过 AIC 指 标 来 判断 是 否 需要 参数 优化 。 


# 对 lml 模 型 做 逐步 回 
> step (lml) 
Start: AIC=324.5] 

区 十 X2 十 区 3 十 入 4 


Ne 


加 | 


Df Sum of Sq RSS AIC 
908.8 324.51 

= XX3 L 77.03 985.9 340.90 
= 2 1 109.37 1018.2 348.19 
一 Xx] ] 249.90 1158:8. .377541 
— X4 1 2490.56 3399.4 620.65 
Call 
lIm(formula =y ~ xl + x2 + x3 + x4, data = df) 


Coeff icients: 
(Intercept) 汉 ] x2 x3 x4 
212.8780 0.8542 0.6672 -0.6674 0.4821 


通过 计算 AlC 指 标 ，Im1 的 模型 AIC 最 小 时 为 324.51， 每 次 去 掉 一 个 自 变 量 都 会 让 AIC 的 值 变 大 ， 所 以 我 们 还 是 不 调整 比较 好 。 


对 刚才 的 Im3 模 型 做 逐步 回归 的 模型 调整 。 


# 对 lm3 模 型 做 逐步 回归 
> step (lm3) 
Start: AIC=325.7 # 当 前 AIC 


y~xl+x2+x3+ x4 + xl:x2 


Df Sum of Sq RSS AIC 


- xl:x2 1 3.25 908.8 324.51 
905.6 325.70 
— x3 1 69.47 975.1 340.41 
— X4 1 2487.86 3393.5 622.25 
Step: AIC=324.51 # 去 掉 x1*x2 项 的 AIC 


yy ~ 六 | 十 X2 二 XX3 二 4 


Df Sum of Sq RSS AIC 

908.8 324.51 
= X33 1 771:03 985;9 340.90 
二 演 2 1 T0937 10148:.2° 348:19 
= ] 249.90 1158.8 377.41 
— Xx4 肌 2490.56 3399.4 620.65 


lm(formula = y~ xl + x2 + x3 + x4, data = df) 


Coeff icients: 
(Intercept) xl x2 x3 x4 
212.8780 0.8542 0.6672 -0.6674 0.4821 


通过 AIC 的 判断 ， 去 掉 x1*x2 项 后 AIC 最 小 ， 最 后 的 检验 结果 告诉 我 们 ， 还 是 原初 的 模型 是 最 好 的 。 


.4 案例: 黑色 系 期 货 日 K 线 数据 验证 


最 后 ,我们 用 上 面 5 个 期 货 合约 的 日 K 线 数据 测试 一 下 ， 找 到 多 元 回归 关系 。 加 载 黑色 系 5 个 品种 的 期 货 数 据 ， 数 据 分 别 存储 在 文件 中 ， 期 货品 种 与 文件 名 的 对 应 关系 如 表 2-1 所 示 。 


表 2-1 期 货品 种 与 文件 名 对 应 关系 


期 货品 种 文件 名 


焦 短 j1605 j daily.csv， 
焦煤 jm1605 jm daily.csv 
铁人 矿石 i1605 i daily.csv 
热 卷 hc1605 hc_daily.csv 


蝶 纹 钢 rb1605 rb daily.csv 


接 下 来 ， 用 R 语 言 进行 读 取 数据 和 数据 格式 转换 。 


# 定义 读 文件 函数 

> dailyData <- function(file) { 

十 df <- readq.table(file = file, header = FALSF,sep = ',', na.strings = 'NULL') 
十 names (df) <-c('date', 'price') 

十 return (df) 

丰 上 

# 转型 为 xts 类 型 

> toXts<-function (data, format="'%Y-%$m-%d SSH:SM:S%S7) { 
十 df<-subset (data, select=-c (date)) 

十 xts (df, order.by=strptime (data$date, format)) 

+ } 

# 分 别 从 文件 中 读 取 数 据 

> xl<-toXts (dailyData (f ile='] daily.csv'),'%Y%m%sd") 
> x2<-toXts (dailyData (f ile='jm daily.csv'),'"%Y%m%d'") 
> x3<-toXts (dailyData (f ile='i daily.csv'),'%Y%m%d') 
> x4<-toxts (dailyData (f ile='hc daily.csv'),'%Y%m% ') 
> y<-toXts (dailyData (f ile='rb daily.csv'),'%Y%m%sd") 
# 合并 数据 集 

> df<-na.omit (merge (x1, x2, x3, x4, y) ) 

# 对 列 进行 重 命 名 

> names (df)<-c('x1', 'x2', 'x3', 'x4','y') 


对 上 面 5 个 品种 的 日 K 线 数据 进行 多 元 回归 分 析 建 模 。 


# 多 元 回归 分 析 建 模 
> lm9<-lm(y~x1+x2+x3+x4, data=df)  # 日 K 线 数 
> summary (1m9) 


mu 


Call 
jm(formula =y ~ xl + x2 + x3 + x4, data = df) 


Residuals: 
Min 19 Median 30 Max 
=173.338. =37;470 3.465 32.158 178.982 


Coeff icients: 

Estimate Std. Error t Value Pr (>|t|) 
(Intercept) 386.33482 31.077129 12.431] < 2e=16 *** 
xl 0.75871 0.07554 10.045 < 2e-16 *** 
X2 -0.62907 0.14715 =4.275 2.24e=05 *** 
葡 3 1.16070 0.05224 22.219 < 2e-16 *** 
x4 0.46461 0.02168 21.427 < 2e-16 大 大 大 


Si1gnit. Codess 0 OQ .00 Xr O00L MW O05 Ye ‘OL YE 1 


Residual standard error: 57.78 on 565 degrees of freedom 
Multiple R-squared: 0.9844, Adjusted R-squared: 0.9843 
F-statistic: 8906 on 4 and 565 DF, p-value: < 2.2e-16 


查看 数据 集 的 基本 统计 信息 。 


> summary (df) 
Index xl 汉 2 
Min. 2014-03-21 00:00:00 Min. * :606.5 Min. :494.0 
lst Qu.:2014-10-21] 06:00:00 18t. OU B03.5 lt OB 6l13.1 
Median :2015-05-20 12:00:00 Median : 939.0 Median :705.8 
Mean :2015-05-21 08:02:31 Mean : 936.1 Mean :695:3 
3rd Qu.:2015-12-16 18:00:00 3rd Qu.*:1075.0 37d ©0773.0 
Max. :2016-07-25 00:00:00 Max. :1280.0 Max. :898.0 
x3 X4 y 

Min. :284.0 Min. :1691 Min. :1626 

St OU S374.1 lst Qu.:2084 lst OW. 52012 

Median :434.0 Median :2503 Median :2378 

Mean AGS Mean :2545 Mean :2395 

S37d OU od45.8 3rd Qu.:2916 3rd Qu.:2592 

Max. :82530 Max. :3480 Max. :3414 


最 后 ， 生 成 期 货 日 K 线 的 5 个 品种 的 配对 关系 展示 图 ， 如 图 2-27 所 示 。 


> pairs (as.data.frame (df)) 
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图 2-27 黑色 商品 期 货 的 相关 关系 
对 于 黑色 系 的 5 个 品种 的 日 K 线 数据 ， 同 样 具 有 非常 强 的 相关 关系 ， 那 么 我 们 就 可 以 把 这 个 结论 应 用 到 实际 的 交易 中 了 。 


本 文通 过 多 元 回归 的 统计 分 析 方 法 ， 介 绍 多 元 回归 在 金融 市 场 的 基本 应 用 。 我 们 通过 建立 因 变量 和 多 个 自 变量 的 模型 ， 从 而 发 现 生 活 中 更 复杂 的 规律 ， 并 建立 有 效 的 验证 指标 。 让 我 用 技术 的 优势 ， 去 
更 多 的 发 现金 融 市 场 的 规律 吧 ，。 


二 部 分 ”R 语 言 数据 处 理 与 高 性 能 计算 


. 第 3 章 RR 语言 数据 处 理 


本 章 以 R 语 言 数 据 处 理 技术 为 核心 ， 介 绍 了 如 何 用 R 语 言 进行 各 种 类 型 数据 的 处 理 方 法 ， 包 括 标 准 的 结构 化 数据 集 的 处 理 和 字符 数据 集 的 处 理 ， 同 时 深入 浅 出 地 介绍 了 R 语 言 数据 处 理 方式 ， 包 括 循环 、 
分 组 、 人 合并、 管道 、 分 词 等 常用 的 数据 处 理 操作 。 


如 何 用 R 语 言 言 做 循 环 ? 


https// dy 


大 家 刚 开始 接触 R 语 言 时 ， 会 听 到 各 种 R 语 言 的 使 用 技巧 ， 其 中 最 重要 的 一 条 就 是 不 要 用 循环 ， 效 率 特别 低 ， 要 用 向 量 计算 代替 循环 计算 。 


那么 ， 这 是 为 什么 呢 ? 原因 在 于 R 的 循环 操作 for 和 while， 都 是 基于 R 语 言 本 身 来 实现 的 ， 而 向 量 操作 是 基于 底层 的 C 语 言 函 数 实现 的 ， 从 性 能 上 来 看 ， 就 会 有 比较 明显 的 差距 了 。 那 么 如 何 进行 高 效 的 
循环 计算 呢 ， 就 是 要 用 到 apply 的 家 族 函 数 ， 包 括 apply、sapply、tapply、mapply、lapply、rapply、vapply、eapply。 


apply 函 数 族 是 R 语 言 中 数据 处 理 的 一 组 核心 六 数 ， 通 过 使 用 apply 函 数 ， 我 们 可 以 实现 对 数据 的 循环 、 分 组 、 过 滤 、 类 型 控制 等 操作 。 但 是 ， 由 于 在 R 语 言 中 apply 函 数 与 其 他 语言 循环 体 的 处 理 思 路 不 
太一 样 ， 所 以 apply 函 数 族 一 直 是 使 用 者 玩 不 转 的 一 类 核心 函数 。 


很 多 R 语 言 新 手 ， 写 了 很 多 的 for 循 环 代码 ， 也 不 愿意 多 人 花 点 时 间 把 apply 函 数 的 使 用 方法 了 解 清楚 ， 最 后 把 R 代 码 写 的 跟 C 似 得 ， 我 严重 鄙视 只 会 写 for 的 R 程 序 员 。 


apply 函 数 本 身 就 是 为 解决 数据 循环 处 理 的 问题 而 诞生 的 ， 为 了 面向 不 同 的 数据 类 型 ， 不 同 的 返回 值 ，apply 函 数组 成 了 一 个 函数 族 ， 包 括 了 8 个 功能 类 似 的 国 数 。 这 其 中 有 些 卫 数 很 相似 ， 有 些 却 不 太 
一 样 。 一 般 最 常用 的 函数 为 apply、sapply 和 lapply， 下 面 将 分 别 介 绍 这 8 个 函数 的 定义 和 使 用 方法 。 


分 组 计算 tapply apply 
参数 : vector 参数 : list，data，frame，array 
返回 值 : vector 返回 值 : vector，matrix 


多 参数 计算 mapply 


参数 : vector， 不 限 个 数 
返回 值 : vector，matrix 


向 化 版 可 设置 返回 值 


循环 达 代 参数 . list，data，frame 参数 .list，data，frame 
返回 值 : vector，matrix 返回 值 : vector，matrix 


参数 . list，data| frame 


参数 :list 
环境 空间 遍历 “国人 返回 但: list 


人 参数 :environment 
返回 值 :list 
图 3-1 apbply 函 数 族 
本 文 所 使 用 的 系统 环境 : 


* Win1064bit 


* R: 3.2.3 x86_64-w64-mingw32/x64 b4bit 


3.1.2 apply 函数 


apply 函 数 是 最 常用 的 代 蔡 for 循 环 的 函数 。apply 函 数 可 以 对 和 矩阵、 数据 框 、 数 组 (二 维 、 多 维 ) ， 按 行 或 列 进行 循环 计算 ， 对 子 元 素 进行 迭代 ， 把 子 元 素 以 参数 传递 的 形式 给 自 定义 的 FUN 函 数 中 ， 并 
返回 计算 结果 。 


apply (X, MARGIN, FUN, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/...) 


参数 列表 : 

. 义 : 数组 、 撼 阵 、 数 据 框 。 

* MARGIN: 按 行 计算 或 按 按 列 计算 ， 1 表示 按 行 ， 2 表示 按 列 。 
FUN: 自 定义 的 调用 函数 。 

.1 更 多 参数 ， 可 选 。 


比如 ， 对 一 个 矩阵 的 每 一 行 求 和 ， 下 面 就 要 用 到 apply 做 循环 了 。 


> x<-matrix(l1:12,ncol=3); x 
[al ba2 1 3] 

下 | 1 5 9 

2,] 2 6 0 

37| 3 7 1 

4,] 4 8 2 


> apply (x, 1, sum) # 按 行 求 和 
[1] 15 18 21 24 


下 面 计 算 一 个 稍微 复杂 点 的 例子 ， 按 行 循 环 ， 让 数据 框 的 x1 列 加 1， 并 计算 出 x1、x2 列 的 均值 。 


# 生成 data. frame 
> x <- cbind(xl = 3, x2 = c(4:1, 2:5)); x 
Xxl] x2 


[1,] 3 4 
2A .23 
[371] 3 .2 
[4,] 3 1 
[Sr :3° 2 
6z 3 3 
[7,] 3 4 
[8,] 3 5 


# 自 定义 函数 myFUN， 第 一 个 参数 x 为 数据 

# 第 二 、 三 个 参数 为 自 定 义 参数 ， 可 以 通过 apply 的 'http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/OEBPS/Text/...' 进 行 传 入 。 
> myFUN<- function(x, cl, c2) { 

十 c(sum(x[cl],1), mean (x[c2])) 

+ } 


# 对 数据 框 按 行 做 循环 ， 每 行 分 别传 递 给 myFUN 函 数 ， 设 置 cl1、c2 对 应 myFUN 的 第 二 、 第 三 个 参数 
# 最 后 用 t () 函数 ， 对 结果 进行 行列 转 置 
> t(apply (x,1,myFUN, cl1="'x1"',c2=c('xl1','x2"'))) 

| 

4 


让 


[jy1] [;2] 
[1,] | 3.5 
[2, ] 4 3.0 
[3, ] 4 2.5 
[4, ] 4 2.0 
[5, ] 4 2.5 
[6, ] 4 3.0 
[7, ] 4 3.5 
[8,] 4 4.0 


通过 上 面 的 自 定 义 函 数 myFUN 就 实现 了 一 个 常用 的 循环 计算 。 


如 果 直 接 用 for 循 环 来 实现 ， 则 代码 如 下 : 


# 定义 一 个 结果 的 数据 框 
> 


f<-data.frame () 


# 定义 for 循 环 
> for(i in 1l:nrow(x))t{ 
+ row<-x[i,] # 每 行 的 值 
+ df<-rbind(df,rbind(c(sum(row[1],1), mean (row)))) # 计算 ， 并 赋值 到 结果 数据 框 
a 
# 打印 结果 数据 框 
> eb 
V1 V2 
1 4 3.5 
2 4 3.0 
3 4 2.5 
4 42.0 
5 42.5 
6 43.0 
7 4 3.5 
8 44.0 


通过 for 循 环 的 方式 ， 也 可 以 很 容易 实现 上 面 的 计算 过 程 ， 但 是 这 里 还 有 一 些 额 外 的 操作 需要 自己 处 理 ， 比 如 构建 循环 体 、 定 义 结果 数据 集 


对 于 上 面 的 需求 ， 还 有 第 三 种 实现 方法 ， 那 就 是 利用 R 的 特性 ， 通 过 向 量化 计算 来 完成 。 


V 
O, 
[oD 
tt 
[ey 


.frame (x1l=x[,1]+1,x2=rowMeans (x)) 


ll 
SOOODDODOW 
EN EN EN 


CO~JOOPAODP 
~ 


如 上 ,， 一行 就 可 以 完成 整个 计算 过 程 了 。 接 下 来 ， 我 们 需要 再 比较 一 下 3 种 操作 在 性 能 上 的 消耗 : 


清空 环境 变量 


rm(list=]1s ()) 


封装 Eun1l 
Funl<-function (X) { 

myEUN<- function(x, cl, c2) { 

c(sum(x[cl],1), mean (x[c2]1)) 


V# 


+ V# 


} 
apply (x, 1 ,myFUN, cl="'x1"',c2=c('x1','x2"')) 


+ } 
# 封装 fun2 
> fun2<-function (x) { 
df<-data.frame () 
for(i in 1l:nrow(x))t{ 

row<-—x [i, | 
df<-rbind(df,rbind(c(sum(row[1],1), mean (row)))) 


} 


+ } 
# 封装 Eun3 


> fun3<-function (x) 
data .frame (xl1=x 


{ 
[ 


,1]+1,x2=rowMeans (X) ) 


F 


# 生成 数据 集 
> x <- cbind (x1=3, x2 = c(400:1, 2:500)) 


分 别 统计 3 种 方法 的 CPU 耗 时 。 
system.time (funl (x)) 
] 户 系统 流逝 
.01 0.00 0.02 


V 井 


CD 


> System.time (fun2 (X) ) 
户 系统 流逝 
OE9 bs00 8 


> System.time (fun3 (x)) 
户 系统 流逝 
0 0 0 


从 CPU 的 耗 时 来 看 ， 用 for 循 环 实现 的 计算 是 耗 时 最 长 的 ，apply 实 现 的 循环 耗 时 很 短 ， 而 直接 使 用 R 语 言 内 置 向 量 计算 的 操作 几乎 不 耗 时 。 


向 量 计 算 ， 必 须要 用 到 循环 时 ， 则 使 用 apply 函 数 ， 应 该 尽量 避免 显示 的 使 用 or、while 等 操作 方法 。 


3.1.3 lapply 函 数 


、 合 并 每 次 循环 的 结果 到 结果 数据 集 


通过 上 面 的 测试 ， 对 同一 个 计算 来 说 ， 优 先 考虑 R 语 言 内 置 的 


lapply 浮 数 是 最 基础 循环 操作 遂 数 之 一 ， 用 来 对 list、data.frame 数 据 集 进行 循环 ， 并 返回 和 XxX 长度 同 样 的 list 结 构 作为 结果 集 ， 通 过 lapply 的 开头 的 第 一 个 字母 “lI” 就 可 以 判断 返回 结果 集 的 类 型 。 


lapply (X, FUN, nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/.. 


参数 列表 : 
"又 : list、data.frame 数 据 。 


` FUN: 自 定义 的 调用 函数 。 


.) 


一 


…: 更 多 参数 ， 可 选 。 


比如 ， 计 算 list 中 的 每 个 KEY 对 应 该 的 数据 的 分 位 数 。 


# 构建 一 个 1ist 数 据 集 x， 分 别 包 括 a, b,c 三 个 KEY 值 。 
> x <- list(a = 1:10, b = rnorm(6,10,5), c¢ = c (TRUE,FALSE,FALSE,TRUE));x 


$a 
[1] 1 2 3 4 5 6 7 8 910 
$b 
[1] 0.7585424 14.3662366 13.3772979 11.6658990 9.7011387 21.5321427 
$C 
[1] TRUE FALSE FALSE TRUE 
# 分 别 计算 每 个 KEY 对 应 该 的 数据 的 分 位 数 。 
> lapply (x, £f ivenum) 
$a 
[本 | As0 B30 553 88010a0 
$b 
[1] 0.7585424 9.7011387 12.5215985 14.3662366 21.5321427 
$C 
EL .00 :0.0 0%5. .10 Lid 


如 上 ，lapply 函 数 束 可 以 很 方便 地 把 list 数 据 集 进行 循环 操作 了 ， 还 可 以 用 data.frame 数 据 集 按 列 进行 循环 ， 但 如 果 传 入 的 数据 集 是 一 个 向 量 或 和 矩阵 对 象 ， 那 么 直接 使 用 lapply 束 不 能 达到 想 要 的 效果 


比如 ， 对 算 阵 的 列 求 和 : 


# 生成 一 个 和 矩阵 
> x <- cbind (x1=3, x2=c (2:1,4:5)) 
> X Cclass (x) 


xl1 x2 
[1,] 3 2 
[al 1 
[3;1 ‘3 :4 
[4,] 3 5 
[1] “matrix" 
# 求 和 
> lapply (x, sum) 
[1] 3 
[[2] 
[L113 
[[3]] 
[1] 3 
[[4] 
[L133 
[[5]] 
[1] 2 
[[6] ] 
[[ 7 
[1] 4 
[[8] 
[1 ‘3 


lapply 函 数 会 分 别 循环 矩阵 中 的 每 个 值 ， 而 不 是 按 行 或 按 列 进行 分 组 计算 。 


如 果 对 数据 框 的 列 求 和 |: 


> lapply (data.frame (x), Sum) 
SX1 

[1] 12 

$x2 

[1] 12 


.4 _ sapply 函 数 


sapply 函 数 是 一 个 简化 版 的 lapply 函 数 ，sapply 函 数 增加 了 2 个 参数 simplify 和 USE.NAMES， 主 要 就 是 让 输出 看 起 来 更 友好 ， 返 回 值 为 向 量 ， 而 不 是 list 对 象 。 


sapply (X, FUN, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/..., simplify=TRUE, USE.NAMES = TRUE) 


参数 列表 : 
:每 数组 、 和 矩阵、 数据 框 。 


FUN: 自 定义 的 调用 函数 。 


“ simplify: 是 否 数组 化 ， 当 值 为 arttay 时 ， 输 出 结果 按 数组 进行 分 组 。 
. USE.NAMES: 如 果 义 为 字符 串 ，TRUE 设 置 字 符 囊 为 数据 名 ，FALSE 不 设置 。 
我 们 还 用 上 面 lapply 函 数 的 计算 需求 进行 说 明 。 


> x <- cbind (x1l=3, x2=c(2:1,4:5)); x 
Xl XX2 


对 和 矩阵 计算 ， 计 算 过 程 同 1app1Ly 函 数 
sapply (x, sum) 
| 号 3 33 卫生 


# 
> 
i 


# 对 数据 框 计生 
> sapply (data.frame (x), Sum) 
xl] x2 
12 12 


# 检查 结果 类 型 ，sapply 返 回 类 型 为 向 量 ， 而 lapply 的 返回 类 型 为 list 


> class (lapply (x, sum)) 
[1 "List™ 

> class (sapply (x, sum)) 
[1] "numeric" 


如 果 simplify=FALSE 和 USE.NAMES=FALSE， 那 么 sapply 函 数 就 完全 等 于 lapply 函 数 了 。 


lapply (data.frame (x), Sum) 


> 
$ 
吗 | 于 2 
$ 
[ 


12 


Fy=FALSE 


USE 


. NAME.S=FALSE 


> 
$ 
[i] 12 
$ 
[ 


12 


sapply (data.frame (x), sum, simpli 


— 


对 于 simplify 为 array 时 ， 我 们 可 以 参考 下 面 的 例子 ， 构 建 一 个 三 维 数组 ， 其 中 二 个 维度 为 方 阵 。 


> a<-1:2 


# 按 数 组 分 组 


> sapply(a,function (x) matrix (x,2,2), simpli1 


r r 


[,1] 1,2] 
[1,] ] ] 
[2,] 
x F 2 

[,1] 1[,2] 
[1,] 2 2 
[2,] 2 2 


# 默认 情况 ， 则 自动 合并 分 组 


> sapply(a,function (X) matrix (x,2, 


[1 [02] 


NI 


2) ) 


fy="'array') 


对 于 字符 串 的 向 量 ， 还 可 以 自动 生成 数据 名 。 


> val<-head (letters) 


# 默认 设置 数据 名 

> sapply (val,paste, USE 
a bb €¢ qd 

下 ei vey nq We 1 下 


则 不 设置 数据 名 


~ 一 


. NAME.S=TRUE 


# USE .NAMFS=FALSE, 


> sapply (val,paste, USE .NAMES=FALSE 


= esd We Wie ld We mw BA 


[| 


— 


3. 


一 


.5 vapply 函 数 


vapply 函 数 类 似 于 sapply 函 数 ， 提 供 了 FUN.VALUE 参 数 ， 用 来 控制 返回 值 的 行 名 ， 这 样 可 以 让 程序 更 健壮 。 


vapPpLy(X，EUN，EFEUN.VALUE，http://www.hzcourse.com/resource/read] 


参数 列表 : 
. X: 数组 、 矩阵、 数据 框 。 


" FUN: 自 定义 的 调用 函数 。 


:FUN.VALUE: 定义 返回 值 的 行 名 tow.names。 


: 更 多 参数 ， 可 选 。 


Book?path=/openresources/teach ebook/uncompressed/17222/0E 


‘BPS/Text/..., USE. 


. USE.NAMES: 如 果 X 为 字符 串 ，TRUE 设 置 字符 串 为 数据 名 ，FALSE 不 设置 。 


比如 ， 对 数据 框 的 数据 进行 累计 求 和 ， 并 对 每 一 行 设置 行 名 row.names。 


NAM 


PS = TRUE 


me 


设置 行 名 ，4 行 分 别 为 a,b, c,d 


.frame (cbind (xl1=3, x2=c (2:1,4:5))); 


vapply (x, cumsumy FUN .VALUE=c ( "ay' 


ey 


0， 


人 


07'd’ 


xl1 x2 
3> 这 
6 3 
9 7 
12. 12 


当 不 设置 时 ， 为 默认 的 索引 值 
a<-Sapp1y(Xrcumsum) ;a 
xl x2 


手动 的 方式 设置 行 名 


row.names (a) <-c('a','b','c','d') 


0)) 


,12 12 


通过 使 用 vapply 函 数 可 以 直接 设置 返回 值 的 行 名 ， 这 样子 做 其 实 可 以 


3.1.6 mapply 函 数 


有 


一 


十 上 


| 


省 一 行 的 代码 ， 让 代码 看 起 来 更 顺畅 ， 当 然 如 果 不 愿 意 多 记 一 个 函数 ， 也 可 以 直接 忽略 它 ， 只 用 sapply 函 数 就 够 了 。 


mapply 函 数 也 是 sapply 函 数 的 变形 函数 ， 类 似 多 变量 的 sapply， 但 是 参数 定义 有 些 变化 。 第 一 参数 为 自 定义 的 FUN 函 数 ， 第 二 个 参数 “…” 可 以 接收 多 个 数据 ， 作 为 FUN 函 数 的 参数 调用 。 


mapply (FUN, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/.. 


参数 列表 : 
FUN: 自 定义 的 调用 有 函数 。 
3 接收 多 个 数据 。 


MoreAtgs: 参数 列表 。 


SIMPLIFY: 是 否 数 组 化 ， 当 值 array 时 ， 输 出 结果 按 数 组 进行 分 组 。 


. USE.NAMES: 如 果 X 为 字符 串 ，TRUE 设 置 字符 串 为 数据 名 ，FALSE 不 设置 。 


比如 ， 比 较 3 个 向 量 大 小 ， 按 索引 顺序 取 较 大 的 值 : 


V 


set.seed(1) 


定义 3 个 向 量 
X<-1:10 

y<-5:-4 
z<-round (runif (10,—5,5)) 


按 索引 顺序 取 较 大 的 值 。 
> mapply (max, x, y, Z) 
[411 5 4 3 村 5 67 &-9.10 


VV VV 


十 


再 看 一 个 例子 ， 生 成 4 个 符合 正 态 分 布 的 数据 集 ， 分 别 对 应 的 均值 和 方差 为 c (1，10，100，1000) : 


> set.seed(1) 
# 长 度 为 4 
> n<-rep (4,4) 


# m 为 均值 ，v 为 方差 
> m<-v<-c(1,10,100,1000) 


号 


# 生成 4 组 数据 ， 按 列 分 组 
> mapply (rnorm, n,m,Vv) 

1 [,2] [,3] [,4] 
[1,] 0.3735462 13.295078 157.27814 378.7594 
[2;] 1.1836433 1.795316 €9,46116 =1214,6999 
[B31 01643714 14.874291 251..17/812 21424.9309 
[4,] 2.5952808 17.383247 138.98432 955.0664 


由 于 mapply 函 数 是 可 以 接收 多 个 参数 的 ， 所 以 我 们 在 做 数据 操作 的 时 候 ， 就 不 需要 把 数据 先 合并 为 data.frame 了 ， 和 直接 一 次 操作 就 能 计算 出 结果 了 。 


.7 tapply 函 数 


tapply 函 数 用 于 分 组 的 循环 计算 ， 通 过 INDEX 参 数 可 以 对 数据 集 Xi 进行 分 组 ， 相 当 于 SQL 中 常用 的 group by 的 操作 。 


tapply (X, INDEX, FUN = NULL, http://www.hzcourse.com/resource/read] 


参数 列表 : 

又: 向 量 。 

INDEX: 用 于 分 组 的 索引 。 

FUN: 自 定义 的 调用 函数 。 

. …: 接收 多 个 数据 。 

“ simplify: 是 否 数组 化 ， 当 值 atray 时 ， 输 出 结果 按 数 组 进行 分 组 。 
比如 ， 计 算 不 同 品种 的 芒 尾 花 的 花 妆 (iris) 长 度 的 均值 : 


# 通过 iris$Species 品 种 进行 分 组 

> tapply (iris$Petal.Length,iris$Species,mean) 
setosa versicolor virginica 
1.462 4.260 9:552 


对 向 量 x 和 y 进 行 计算 ， 并 以 向 量 t 为 索 3 


进行 分 组 ， 求 和 |: 


> set.seed(1) 


# 定义 xyy 向 量 
> x<-y<-1:10;x;y 

[1] 1 2 3 4 
[1] 1 2 3 4 


# 设置 分 组 索引 上 


3 € 7 8 9 
3 6 7 全 


Book?path=/openresources/teach ebook/uncompressed/17222/0H] 


BPS/Text/..., simplify = TRU] 


./ MoreArgs = NULL, SIMPLIFY = TRUE,USE 


.NAMPS = TRU] 


> t<-round (runif (10,1,100)%$%2);t 
| 0 2 I 0 | 

# 对 x 进行 分 组 求 和 

> tapply (x,t, sum) 
0 1 2 
8 36 11 


由 于 tapply 只 接收 一 个 向 量 参数 ， 通 过 “.…” 可 以 把 再 把 其 他 参数 传 给 自 定义 的 FUN 函 数 ， 如 果 我 们 想 对 向 量 y 也 进行 求 和 ， 把 y 作 为 tapply 的 第 4 个 参数 传 入 ， 就 能 进行 计算 。 


> tapply (x,t, sum, y) 
0 1 2 


63 91 66 


得 到 的 结果 并 不 符合 我 们 的 预期 ， 结 果 不 是 把 x 和 y 对 应 的 t 分 组 后 求 和 


3.1.8 rapply 函 数 


rapply 函 数 是 一 个 递归 版 本 的 lapply 函 数 ， 它 只 处 理 list 类 型 数据 ， 对 list 的 每 个 元 素 进行 递归 遍历 ， 如 果 list 包 括 子 元素 则 继续 遍历 。 


rapply (object, f, classes = "ANY", 


参数 列表 : 


object: list 数 据 。 


“ f: 自 定义 的 调用 函数 。 


classes: 匹配 类 型 ，ANY 为 所 有 类 型 。 


. deflt: 非 匹 配 类 型 的 默认 值 。 


` how: 3 种 操作 方式 ， 当 为 teplace 时 ， 则 用 调用 f 后 的 结果 替换 原 list 中 原来 的 元 素 ; 当 为 list 时 ， 新 建 一 个 list， 类 型 匹配 调用 f{ 函 数 ， 


unlist (tecutsive=TRUE) 的 操作 。 


水 


和 更 多 参数 ， 可 选 。 


， 而 是 得 到 了 其 他 的 结果 。 第 4 个 参数 y 传 入 sum 时 ， 并 不 是 按照 循环 一 个 一 个 传 进去 的 ， 而 是 每 次 传 入 完整 的 向 量 数据 ， 那 么 再 执 
行 SUm 时 ，sum (y) =55， 所 以 t=0 时 ，x=8， 再 加 上 y=55， 最 后 计算 结果 为 63。 那 么 ， 我 们 在 使 用 “…” 去 传 入 其 他 的 参数 的 时 候 ， 一 定 要 看 清楚 传递 过 程 的 描述 ， 才 不 会 出 现 算法 上 的 错误 。 


def lt = NULL, how = c("unlist", "replace", "list"), http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1 


比如 ， 对 一 个 list 的 数据 进行 过 滤 ， 对 所 有 数字 型 numeric 的 数据 从 小 到 大 进行 排序 。 


> set.seed(1) 

> x=1list (a=12,b=1:4,c=c('b','a')) 
> y=pi 

> z=data.frame (a=rnorm (10) ,b=1:10) 
> a <- list (x=x,y=y,Z2=2) 


# 进行 排序 ， 并 蔡 换 原 List 的 值 
> 


rapply (a, sort, classes='numeric',how="'replace') 


[1] -0.8356286 -0.8204684 -0.6264538 -0.3053884 
[7] 0.4874291 0.5757814 0.7383247 1.53952808 


0.1836433 


[1] 10 9 8 7 6 5 4 3 2 1 
> class (a5z$hb) 


[1] "integer" 


从 结果 中 不 难 发 现 ， 只 有 $z$a 的 数据 进行 了 排序 ， 检 查 $z$b 的 类 型 ， 


0.3295078 


发 现 为 integer， 是 不 等 于 numeric 的 ， 所 以 没有 进行 排序 。 


接 下 来 ， 对 字符 串 类 型 的 数据 进行 操作 ， 对 所 有 的 字符 串 型 加 一 个 字符 串 “+ +++”， 非 字符 串 类 型 数据 设置 为 NA: 


> rapply(a, function (x) paste (X '++++'),classes="character", de 


fF 1t=NA, how = "list") 


上 十 十 十 "aa 十 二 + 十 十 " 


NA 


只 有 $x$c 为 字符 串 向 量 ， 合 并 为 一 个 新 字符 串 。 那 么 ， 有 了 rapply 函 数 就 可 以 对 list 类 型 的 数据 进行 方便 地 数据 过 滤 了 。 


3 


一 


.9 eapply 函 数 


不 匹配 赋值 为 deflt; 当 为 unlist 时 ， 会 执行 一 次 


对 一 个 环境 空间 中 的 所 有 变量 进行 遍历 。 如 果 我 们 有 好 的 习惯 ， 把 自 定义 的 变量 都 按 一 定 的 规则 存储 到 自 定义 的 环境 空间 中 ， 那 么 这 个 函数 将 会 让 你 的 操作 变 得 非常 方便 。 当 然 ， 可 能 很 多 人 都 不 熟悉 
2 节 揭 开 了 R 语 言 中 环境 空间 的 神秘 面纱 ， 而 3.3 节 解密 了 R 语 言 函 数 的 环境 空间 。 


空间 的 操作 ， 那 么 可 以 参考 图 书 《R 的 极 客 理想 一 一 高 级 开发 篇 》， 书 中 3. 


eapply (env, FUN, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/..., all.names = FALSE, USE.NAMES = TRUE) 


参数 列表 : 


env: 环境 空间 。 


FUN: 自 定 义 的 调用 函数 。 


深 


…: 更 多 参数 ， 可 选 。 
. all.names: 匹配 类 型 ，ANY 为 所 有 类 型 。 
. USE.NAMES: 如 果 双 为 字符 串 ，TRUE 设 置 字符 串 为 数据 名 ，FALSE 不 设置 。 
下 面 我 们 定义 一 个 环境 空间 ， 然 后 对 环境 空间 的 变量 进行 循环 处 理 : 
te 


env <- new.env (hash = FALSE) 


# 向 这 个 环境 空间 中 存 入 3 个 变量 
> env$a <- 1:10 

> envSbeta <- exp (-3:3) 
> 

> 

< 


env$logic <- c(TRUE, FALSE, FALSE, TRUE) 
env 
environment: Ox0000000005eccc00> 


# 查看 env 空 间 中 的 变量 


[1] nan "peta" "ogia" 


# 查看 env 空 间 中 的 变量 字符 串 结构 

> ls.str (env) 

a: an [1:10] 1 2345678910 

beta : num [1:7] 0.0498 0.1353 0.3679 1 2.7183 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 
logic : logi [1:4] TRUE FALSE FALSE TRUE 


计算 env 环 境 空间 中 所 有 变量 的 均值 : 


> eapply (env, mean) 
$logic 


[1] 4.535125 


[1] 5.3 


再 计算 中 当前 环境 空间 中 的 所 有 变量 的 占用 内 存 大 小 : 


# 查看 当前 环境 空间 中 的 变量 
> 


ls() 
| ] 


[] ay 


1 df™ 


# 查看 所 有 变量 的 占 


j 内 存 大 小 


> eapply (environm 


ent (), object.size) 


WD 


2056 bytes 


1576 bytes 


$x 
656 bytes 


$y 
48 bytes 


S$z 
952 bytes 


$x 
1088 bytes 


Senv 
D6 bytes 


eapply 函 数 平时 很 难 被 用 到 ， 但 对 于 R 包 开发 来 说 ， 环 境 空 间 的 使 用 是 必须 要 掌握 的 。 特 别 是 当 R 要 做 为 工业 化 的 工具 时 ， 对 变量 的 精确 控制 和 管理 是 非常 必要 的 。 


本 节 全 面 介 绍 了 R 语 言 中 的 数据 循环 处 理 的 apply 函 数 族 ， 读 者 已 经 可 以 应 对 所 有 的 循环 处 理 的 情况 了 。 同 时 ， 在 3.1.2 节 中 也 比较 了 3 种 数据 处 理 方面 的 性 能 ，R 的 内 置 向 量 计 算 要 优 于 apply 循 环 ， 并 大 
幅 优 于 for 循 环 。 那 么 我 们 在 以 后 的 R 的 开发 和 使 用 过 程 中 ， 应 该 更 多 地 把 apply 函 数 使 用 好 。 


忘掉 程序 员 的 思维 ， 换 成 数据 的 思维 ， 也 许 你 就 座 然 开朗 了 。 


第 4 草 R 语 言 局 性 能 计算 


R 语 言 的 性 能 问题 一 直 是 被 大 家 所 关心 的 ，R 本 身 有 很 多 解决 方案 来 提高 性 能 ， 但 由 于 R 语 言 内 核 的 单线 程 设 计 ， 使 得 通过 解决 方案 让 R 本 身 的 性 能 有 飞跃 式 的 提升 是 困难 的 。 本 章 将 介绍 如 何 通过 3 种 外 
部 技术 来 让 R 语 言 的 性 能 达到 生产 环境 的 要 求 。 


4.1 _ OpenBlas 让 R 的 矩 [ 车 计算 加 速 


问 


陪 


如 何 提 升 R 语 言 矩 阵 计算 效率 ? 


在 2015 年 |BM 开 源 社 区 的 大 会 上 ， 我 又 一 次 见 到 了 OpenBlas 主 题 的 分 享 。 我 第 一 次 了 解 OpenBlas 是 在 2013 年 的 Ri 语言 大 会 上 ， 了 解 到 OpenBlas 的 各 种 优势 ， 不 过 听 完 也 就 过 去 了 。 如 今 ，OpenBlas 
项 目的 团队 成 员 稳 定 ， 开 发 进展 顺利 ， 并 已 经 广泛 被 接受 采用 ， 再 不 党 试 一 下 就 真 的 要 落伍 了 。 


在 2016 年 光 谷 人 工 智能 大 会 上 ， 我 再 次 看 到 OpenBlas 的 主题 ， 其 作者 张 先 轶 已 经 博士 毕业 并 创立 了 自己 的 公司 PerfXLab。OpenBlas 已 经 变 成 了 一 个 标准 的 高 性 能 计算 库 。 


4.1.1 OpenBlas 介 绍 


OpenBlas 是 一 个 开源 项 目 ， 是 由 中 科 院 软件 所 并 行 软件 与 计算 科学 实验 室 发 起 的 基于 GotoBLAs21.13 BSD 版 的 开源 BLAS 库 高 性 能 实现 。 


BLAS (Basic Linear Algebra Subprograms， 基 础 线性 代数 程序 集 ) 是 一 个 应 用 程序 接口 (API) 标准 ， 用 于 规范 发 布 基础 线性 代数 操作 的 数值 库 (如 矢量 或 矩阵 乘法 ) 。 该 程序 集 最 初 发 布 于 1979 
年 ， 并 用 于 建立 更 大 的 数值 程序 包 (如 LAPACK) 。 在 高 性 能 计算 领域 ，BLAS 被 广泛 使 用 。 例 如 ，LINPACK 的 运算 成 绩 在 很 大 程度 上 取决 于 BLAS 中 子 程序 DGEMM 的 表现 。 为 提高 性 能 ， 各 软 硬 件 厂商 针 
对 其 产品 对 BLAS 接 口 实现 进行 了 高 度 优化 。 


项 目 主 页 : http://www.openblas.net/ 


4.1.2 R 和 OpenBlas 的 安装 


OpenBlas 可 以 为 各 种 语言 底层 提供 矩阵 计算 的 性 能 提升 ， 那 么 让 我 们 将 R 和 OpenBlas 结 合 试 试 吧 ! 
本 机 的 系统 环境 : 

”Linux Ubuntu 14.01.1 

CPU 双核 Intel (R) Xeon (R) CPU E5-2650 v2@2.60GHz 

. 内 存 4G 

* R: vetsion 3.2.2 x86_64-pc-linux-gnu (64-bit) 


通过 命令 查看 系统 参数 : 


# 操作 系统 


~ cat /etc/issue 

Ubuntu 14.04.1 LTS \n \1 

# CPU 

~ cat /proc/cpuinfo 
processor 

vendor id : GenuineIntel 
cpu family : 6 

model :62 

model name : Intel (R) Xeon (R) CPU E5-2650 v2 @ 2.60GHz 
stepping : 4 

microcode : Ox428 

cpu MHz : 2600.048 


cache size : 20480 KB 
physical id 二 性 
siblings 2 

core id 2 忆 

CPU Cores 号 

apicid i 0 
initial apicid : 0 
fpu : yes 


fpu exception 


cpuid level : 13 


: yes 


wp : yes 
f lags 

bogomips :5200.09 
clf lush size 64 


cache alignment : 


address sizes 


: 46 bits physical, 48 bits virtual 
power management: 


processor 2 汪 

vendor id : GenuineIntel 
cpu family : 6 

model : 62 

model name : Intel (R) 
stepping : 4 
microcode : Ox428 
cpu MHz : 2600.048 
cache size : 20480 KB 
physieal ds 0 
siblings 2 

core id se 

CPU Cores 2 

apieid $2 
Ke 国生 
fpu : yes 

fpu exception : yes 
cpuid level : 13 


wp : yes 

f lags : fpu vwme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat cj: 
bogomips %5200.09 

clf lush size 64 


cache alignment : 


address sizes 


# 内 存 

~ cat /proc/meminfo 
MemTotal : 4046820 KB 
MemFTree : 1572372 KB 
Buffers: 40588 kB 
Cached: 709684 kB 
SwapCached: 0 kB 
Active: 1953940 kB 
Inactive: 418084 kB 
Active (anon): 1621840 kB 
Inactive (anon): 5732 kB 
Active (f ile): 332100 kB 
Inactive (f ile): 412352 kB 
Unevictable: 0 kB 
Mlocked: 0 kB 
SwapTotal: 0 kB 
SwapFr ree: 0 kB 
Di tys 24 kB 
Writeback: 0 kB 
AnonPages: 1623792 kB 
Mapped: 34936 kB 
Shmem: 5828 kB 
SLas: 58024 kB 
SReclaimable: 45252 kB 
SUnreclaim: 12772 kB 
KernelStack: 1512 kB 
PageTables: 8980 kB 
NFS Unstable: 0 kB 
Bounce: 0 kB 
WritebackTmp: 0 kB 
CommitLimit: 2023408 kB 
Committed AS : 2556460 kB 
VmallocTotal: 34359738367 kB 
VmallocUsed: 9664 kB 
VmallocChunk: 34359723308 kB 
HardwareCorrupted: 0 kB 
AnonHugePages: 1562624 kB 
HugePages Total: 0 
HugePages Free: 0 
IugePages Rsvd: 0 
HugePages Surp: 0 
Ilugepagesize: 2048 kB 
DirectMap4k: 28672 kB 
DirectMap2M: 4296704 kB 


首先 ,我们 要 安装 R 语 言 


# 安装 R 语 言 


Xeon (R) 


: 46 bits physical, 48 bits virtual 
power management: 


~ sudo apt-get install r-base 


# 查 看 R 语 言 的 版 本 
~ 及 --version 
R Version 3.2.2 


(2015-08-14) -= 


"Fire Safety" 


Fo 


Copyright (C) 2015 The R Foundation 


Platform: x86 64-pc-linux-gnu (64-bit) 


to redistribute it 


R is 
You are welcom 
GNU General 


Public License versions 


For more informa 


tion about 


thes 


under 


CPU ES5-2650 v2 @ 2.60GHz 


Statistical Computing 


free software and comes with ABSOLUTELY NO WARRANTY. 


F 七 he 


the terms oj 


2 OO 


matters s 


http://www.gnu.org/licenses/. 


我 们 安装 的 R 语 言 的 最 新 版 本 是 3.2.2。 然 后 ， 执 行 一 个 和 矩阵 计算 ， 


动 R 


阵 相 乘 


x 对 罗 迅 


耗 时 


VY 
证 


UsSer 


S32 O332 


接 下 来 ， 我 们 安装 OpenBlas 来 提高 计算 性 能 。 在 Ubuntu 中 安装 OpenBlas 非 常 简单 ， 


<- matrix(1: (3000 * 3000), 


system.time (tmp <- x %*% 
system elapsed 


33:: 788 


~ sudo apt-get install libopenblas-base 


3000， 3000) 


切换 blas 的 计算 引擎 ， 使 用 openblas 蔡 换 libblas。 


~ sudo update-alternatives --coni 
There are 2 choices 


Selection 


Path 


/usr/1ib/openb] 
lib/libblas/libblas.so. 


Fj ibDLas. Sor3 
for the alternative libblas.so.3 (providing /usr/lib/libblas.so.3). 


las-base/] 


1Ibb] 


2 /usr/1ib/openb] 


1as-base/] 


ilbb] 


: fpu vwme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat ci 


9 运行 环境 ， 在 Linux Ubuntu 中 运行 一 条 命令 就 可 以 搞定 。 


Priority Status 
as.So.3 40 auto mode 
3 10 manual mode 
aSs.S0.3 40 manual mode 


F Jush mmx 


fxsr sse sse2 ht syscall nx rdtscp lm constant tsc rep good nopl pni ssse3 cx16 sse 


flush mmx fxsr sse sse2 ht syscall nx rdtscp lm constant tsc rep good nopl pni ssse3 cx16 sse 


让 2 个 3000x 3000 的 方 阵 相 乘 。 


一 条 命令 就 可 以 搞定 。 


4.1 


Press enter to keep the current choice[*], or type selection number: 0 


选择 0， 使 用 openblas-base 引 擎 


oo 


我 们 重新 打开 R 运 行 环境 ， 再 次 执行 刚才 的 矩阵 相 乘 计算 。 


及 

> x <- matrix(l1: (3000 * 3000), 
# 计算 耗 时 

> System.time (tmp <- x %*% x) 


User 
7.391 


system elapsed 
O0127 3.869 


3000,， 3000) 


神奇 的 事情 发 生 了 ， 速 度 提升 了 4 倍 多 。 由 于 OpenBlas 可 以 加 速 矩阵 计算 ， 那 么 我 们 对 所 有 和 珑 阵 操 作 都 做 一 下 测试 吧 。 


.3 ”让 R 语 言 加 速 


我 发 现 Revolution Analytics 公 司 也 用 这 个 脚本 进行 了 测试 ， 并 对 比 了 Revolution 企 业 版 和 R 的 官方 发 行 版 的 区 别 。 


下 载 脚本 : 


~ wget http://brett 
--2015-09-24 12:06: 


k 
03== 
e 


Connecting 


Length: 13666 
Saving to: 


(13K) 


1 五 二 


通过 互联 网 我 找到 了 两 个 用 于 Ri 语言 


http://bre 
Resolving brettklamer.com (brettklamer.com)http://www.hzcourse.com/resource/read] 
(brettklamer.com) |199.96.156.242|:80http://www.hzcourse.com/resource/readi 
ttp://www.hzcourse.com/resource/read] 


to brettklamer .com 
HTTP request sent, awaiting responsen 


‘R-benchmark-25.R’ 


性 能 测试 的 脚本 ， 我 们 可 以 在 自己 的 环境 中 测试 一 下 。 


lamer.com/assets/f iles/statistical/faster-blas-in-r/R-benchm 


ark-25.R 


ttklamer.com/assets/f iles/statistical/faster-blas-in-r/R-benchmark-25.R 
Book?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 


100%[ 


2015-09-24 12:06:06 


执行 脚本 : 


5 


# 运行 脚本 
> source("R-benchmark-25.R") 


R Benchmark 2.5 


(203 MB/s) - 


Loading required package: Matrix 
Loading required package: SuppDists 


Number of times each test is run 


. Matrix calculation 


‘R-benchmark-25.R’ 


saved [13666/13666] 


Creation, transp., deformation of 


a 2500x2500 matrix 


2400x2400 normal distributed random matrix ^1000 


Sorting of 7,000,000 


2800x2800 cross-product matrix 
Linear regr. over a 3000x3000 matrix (c 


Trimmed geom. mean (2 extremes eliminated): 


random values 


(b = al' 


* a) 
=a\b') 


3 
(sec): 1.103 
(sec): 0.812333333333333 
(sec) 0.962666666666667 
(sec) 1.547 
(sec): 0.828000000000001 


0.957989159036612 


. Matrix functions 
FFT over 2,400,000 random values (sec) 0.3695333333333335 
Eigenvalues of a 640x640 random matrix (sec) 1.43466666666667 
Determinant of a 2500x2500 random matrix (sec) 0.895999999999998 
Cholesky decomposition of a 3000x3000 matrix (sec) 0.832000000000003 
Inverse of a 1600x1600 random matrix (sec) 0.724333333333334 
Trimmed geom. mean (2 extremes eliminated): 0.814310314522547 
. Programmation 
3, 500,000 Fibonacci numbers calculation (vector calc) (sec) 0.776666666666661 
Creation of a 3000x3000 Hilbert matrix (matrix calc) (sec) 0.269666666666671 
Grand common divisors of 400,000 pairs (recursion) (sec) 0.570666666666663 
Creation of a 500x500 Toeplitz matrix (loops) (sec) 0.506666666666665 
Escouf ier's method on a 45x45 matrix (mixed) (sec) 0.533000000000001 
Trimmed geom. mean (2 extremes eliminated): 0.536138937440438 
Total time for all 15 tests (sec): 12.162 
Overall mean (sum of I, and trimmed means/3) (sec): 0.747841037469598 
-——— End of test -一 一 


我 们 再 切换 到 R 语 言 默 认 的 blas 引 擎 运行 一 次 : 


~ sudo update-alternatives --conm 


There are 2 choices 


F ig libblas,.so.3 
for the alternative libblas.so.3 (providing /usr/lib/libblas.so.3). 


Selection Path Priority Status 

* 0 /usr/lib/openblas-base/libblas.so.3 40 auto mode 
1 /usr/lib/libblas/libblas.so.3 10 manual mode 
2 /usr/lib/openblas-base/libblas.so.3 40 manual mode 


Press enter to keep the current choice 


[*], or type se] 
update-alternatives: using /usr/lib/libblas/libblas.so.3 to provide /usr/lib/libblas.so.3 (libblas.so.3) in manual mode 


选择 1， 切 换 到 libblas 引 警 。 重 启 R 语 言 环境 ， 并 执行 脚本 。 


~ 及 
> source("R-benchmark-25.R") 


R Benchmark 2.5 


Loading required package: Matrix 
Loading required package: SuppDists 


Number of times each test is run 


. Matrix calculation 


Lection number: 1 


Creation, transp., deformation of 


a 2500x2500 matrix 


(sec): 1.09366666666667 


>] 


13,666 


-—-.-K/s 


i 


Book?path=/openresources/teach ebook/uncompressed/17222/0E 


in Os 


BPS /Tex 


Book?path=/openresources/teach ebook/uncompressed/17222/0F 


t/... 


200 OK 


199.96.156 


es, 


.242 


BPS/Text/... cc 


2400x2400 normal distributed random matrix ^1000 (sec): 
Sorting of 7,000,000 random values (sec): 
2800x2800 cross-product matrix (b = a' * a) (sec): 
Linear regr. over a 3000x3000 matrix (c =a \ b') (sec): 


Trimmed geom. mean (2 extremes eliminated): 


. Matrix functions 


FFT over 2,400,000 random values (sec) 
Eigenvalues of a 640x640 random matrix (sec) 
Determinant of a 2500x2500 random matrix (sec): 
Cholesky decomposition of a 3000x3000 matrix (sec) 
Inverse of a 1600x1600 random matrix (sec) 


Trimmed geom. mean (2 extremes eliminated): 


. Programmation 


3,500,000 Fibonacci numbers calculation (vector calc) (sec): 
Creation of a 3000x3000 Hilbert matrix (matrix calc) (sec) 
Grand common divisors of 400,000 pairs (recursion) (sec) 
Creation of a 500x500 Toeplitz matrix (loops) (sec) 
Escouf ier's method on a 45x45 matrix (mixed) (sec): 


Trimmed geom. mean (2 extremes eliminated): 


Total time for all 15 tests sec): 
Overall mean (sum of I, and trimmed means/3) (sec): 
-——— End of test 一 -一 


0.817333333333333 
0.:954333333333333 
15.3033333333333 
D9 


1.95463154033118 


.363666666666669 


2.87278425762591 


0.775000000000006 
0.259666666666665 
0.633333333333345 
0.533666666666666 
0.647999999999996 


0.602780428790226 


44.505 
1.5014435867612 


从 运行 结果 来 看 ， 用 OpenBlas 库 做 矩阵 计算 的 性 能 优势 是 非常 明显 的 。 完 成 15 个 测试 ，OpenBlas 库 用 时 12 秒 ， 而 默认 的 Blas 库 用 时 44 秒 。 仅 仅 是 切换 一 个 底层 算法 库 的 成 本 ， 就 可 以 让 计算 性 能 得 到 


非常 大 的 提升 ， 各 位 R 的 小 伙伴 赶紧 用 起 来 吧 ! 


4.2 R 语 言 跨 界 调用 C++ 


笔者 使 用 R 语 言 已 经 很 多 年 了 ， 对 很 多 R 包 都 已 经 非常 了 解 ， 唯 独 没 有 接触 和 C++ 相关 的 部 分 ， 
的 方法 也 已 经 很 成 熟 。 让 R 和 C++ 实现 通信 已 经 变 得 很 简单 。 


跟 上 跨 语言 的 步伐 ， 打 开 R 和 C++ 的 通道 ， 让 C++ 来 解决 R 性 能 的 诉 病 吧 。 


4.2.1 ”Rcpp 的 简单 介绍 


这 很 大 程度 上 与 我 长 期 使 用 java 的 背景 有 关 。 但 随 着 多 语言 的 发 展 ， 跨 语言 应 用 的 流行 ， 打 通 各 语言 界限 


Rcpp 包 是 一 个 打通 R 语 言 和 C+ + 语言 的 通信 组 件 包 ， 实 现 了 R 语 言 和 C+ + 函数 的 相互 调用 。R 语 言 和 C++ 语 言 的 数据 类 型 可 以 通过 Rcpp 包 进行 完整 的 映射 。 


Rcpp 的 官方 网 站 : https://cran.r-project.org/web/packages/Rcpp/index.html, 


本 文 作为 入 门 教 程 ， 只 是 简单 介绍 如 何 打通 R 语 言 和 C++ 的 通信 通道 ， 并 不 做 深入 探讨 。R 语 


的 内 容 ; 而 关于 R 语 言 和 Nodejs 的 调用 ， 可 以 参考 《R 的 极 客 理想 一 一 工具 篇 》4.4 节 的 内 容 。 


4.2.2 5 分 钟 上 手 Rcpp 


作为 5 分 钟 上 手 的 教程 ， 本 节 只 讲 例子 不 讲 APl。 


es 


[sl 


和 其 他 语言 也 有 类 似 的 通信 实现 ， 关 于 R 语 言 和 Java 的 调用 ， 可 以 参考 《R 的 极 客 理想 一 一 工具 篇 》4.3 节 


本 文 所 使 用 的 系统 环境 : 

+ Win1064bit 

. R: 3.2.3 x86_64-w64-mingw32/x64 b4bit 

由 于 Windows 系 统 的 环境 下 需要 Rtools 支 持 ， 所 以 要 手动 下 载 对 应 版 本 的 Rtoos| 包 。 我 的 R 语 言 版 本 是 3.2.3， 所 以 我 需要 安装 Rtools33.exe。 安 装 程序 就 不 多 说 了 ， 双 击 完成 即 可 。 


下 载 Rcpp 的 程序 包 ， 进 行 安装 ， 一 行 代码 搞定 。 


> install.packages ("Repp") 

trying URL ‘https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/windows/contrib/3.2/Rcpp 0.12.6.zip' 
Content type "application/zip' length 3221864 bytes (3.1 MB) 
downloaded 3.1 MB 


package ‘Rcpp’ successfully unpacked and MD5 sums checked 
Warning in install.packages : 
cannot remove prior installation of package ‘Rcpp’ 


The downloaded binary packages are in 
C:\Users\tinkpad\AppData\Local\Temp\RtmpKkg8zo\downloaded packages 


Riools214 cxe Rtools2l4exe |R213xorR214x | 一 人 一 
Rtools2l3exe ”|IR2I3xz | 一 


RO Rtools210exe |R29x RT— 210x 六 
Rtools?9exe |R28xorR29x |Ys | 
ee R27xorR28x 一 一 


图 4-1 Rtools 版 本 说 明 
1. 从 hello world 开 始 
从 一 个 简单 的 程序 hello world 开 始 ， 让 R 语 言 程序 调用 C+ + 中 的 hello () 函数 。 我 们 需要 新 建 两 个 文件 ， 并 放 在 同一 个 目录 中 。 
. demo.cpp，C++ 程 序 的 源 文 件 
.demo.f， 有 程序 源 文件 


首先 ， 编 辑 demo.cpp， 定 义 hello () 函数 : 


~ notepad demo.cpp 


#include <Rcpp.h> 
#include <string> 


using namespace stgqd; 
using namespace Repp; 


//[[Rcpp: :export]] 

string hello(string name) { 
cout << "hello " << name << endl; 
return name; 


/*** R 
hello('world') 
he] (Conan ' ) 
本 六 


上 面 Rcpp 部 分 的 代码 ， 我 们 可 以 分 三 部 分 来 看 。 


. #include 和 using 部 分 : 包 引 用 和 命名 空间 的 声明 。<Rcpp.h> 和 namespace 是 C++ 程序 必需 加 载 的 ， 由 于 使 用 了 stting 类 型 作为 参数 和 返回 值 ， 所 以 需要 引入 类 库 <sttinge> ， 并 声明 命名 空间 namespace std。 


. 功能 函数 部 分 : 定义 了 一 个 hello (string name) 函数 ， 有 一 个 参数 是 stting 类 型 ， 返 回 值 也 为 stting 类 型 。 需 要 强调 的 是 ， 对 R 开 放 的 函数 必须 增加 //IIRcpp: : exportl] 的 注释 声明 。 
. 代码 执行 由 /***R 和 */ 包含 ， 为 R 语 言 的 代码 ， 会 默认 被 执行 。 


编辑 demo.r， 用 来 调用 demo.cpp 的 hello () 函数 。 


~ notepad demo.r 


library (Rcpp) 


sourceCpp (f ile="'demo.cpp') 
hello('R') 


执行 R 语 言 的 代码 : 


# 加 载 Rcpp 包 
> library (Rcpp) 


# 编译 和 加 载 demo . cpp 文件 
> sourceCpp (f ile="'demo.cpp') 


# 执行 封装 在 demo .cpp 中 的 R 代 码 
> hello('world') 

hello worild 

[1] “world" 


> hello('Conan') 
hello Conan 
[1] "Conan" 


# 执行 hello 函 数 

> hello('R') 

hello [1L]R 
TR" 


这 样 ， 一 个 非常 简单 的 hello world 程 序 就 完成 了 。 
2.R 和 Rcpp 的 混 写 代码 


上 面 用 两 行 代码 就 完成 了 R 对 C++ 程序 的 调用 ，sourceCpp () 函数 真是 强大 。 其 实 ，sourceCpp() 函数 还 提供 了 一 种 代码 混 写 的 方法 ， 就 是 在 R 的 代码 中 直接 嵌入 C++ 代 码 。 


sourceCpp (code=" 
#include >Rcpp.h< 
#include >string< 


using namespace stgqd; 
using namespace Repp; 


//[[Rcpp: :export]] 

string hello(string name) { 
cout << "hello " << name << endl; 
return name; 


hello ('R2') 
运行 代码 : 


> sourceCpp (code=" 
+  #include >Rcpp.h< 
+  #include >string< 


+ using namespace stqd; 
+ using namespace Repp; 


+  //[[Repp: :export]] 

十 string hello(string name) { 

* cout << "hello " << name << endl; 
十 return name; 


hello R2 


这 种 多 语言 混 写 的 语法 虽然 不 太 推荐 ， 但 对 于 几 行 代码 来 说 ， 还 是 很 方便 的 。 
3. 用 RStudiolDE 生 成 cpp 文 件 
如 果 你 使 用 的 是 RStudio IDE， 开 发 起 来 将 会 非常 方便 ， 可 以 直接 新 建 C++ 程 序 ， 生 成 一 段 标准 的 代码 模板 ( 见 图 4-2) 。 


生成 的 代码 模板 如 下 : 


#include <Rcpp.h> 
using namespace Repp; 


// This is a simple example of exporting a C++ function to R. You can 
// source this function into an R session using the Repp::sourceCpp 
// function (or via the Source button on the editor toolbar). Learn 
// more about Rcpp at: 
// 
// http://www.rcpp.org/ 

// http://adv-r.had.co.nz/Rcpp.html 
, http://gallery.rcpp.org/ 


// [[Repp: :export]] 
NumericVector timesTwo (NumericVector x) { 
return ZK * 2 


} 


// You can include R code blocks in C++ files processed with sourceCpp 
// (useful for testing and development). The R code will be automatically 
// run after the compilation. 


// 


/*** R 
timesTwo (42) 
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图 4-2 ”用 RStudio 生 成 cpp 文 件 


我 们 通过 Rstudio 可 以 快速 生成 一 段 标准 的 代码 模板 ， 改 改 马上 就 能 用 了 


4.2.3 ”数据 类 型 转换 


上 面 的 例子 中 我 们 测试 了 字符 串 类 型 的 调用 。 接 下 来 我 们 测试 一 下 R 语 言 其 他 数据 类 型 的 调用 ! 
1. 基 本 类 型 


基本 类 型 ，C++ 对 应 R 语 言 的 默认 映射 天 系 。C++ 的 代码 部 分 ， 如 下 所 示 : 


| 


// [[Rcpp: :export]] 
char char type (char X) { 
return x; 


} 


// [[Repp: :export]] 
int int typel(int x){ 
return x; 


} 


// [[Repp: :export]] 
double double type (double X) { 
return x; 


} 


// [[Repp: :export]] 
bool bool type (bool x){ 
return x; 


} 


// [[Rcpp: :export]] 
void void return type()t{ 
Rprintf( “return void™ ); 


= 


执行 R 语 言 言 调 用 : 


"character" 


C 
a ('a') 
al;class (al) # 默认 对 应 R 的 character 类 型 
| ] ' ' 
] 

char type('bbii') # 只 处 理 字符 串 的 第 一 个 字 节 
1] We 


int 类 型 

a2<-int type(111) 

a2;class (a2) # 默认 对 应 R 的 jnteger 类 型 
] 

1] "integer" 

int type(111.1) # 直接 去 掉 小 数位 
1] 111 


# 
> 
> 
[1 
[1 
> 
[ 
# 
> 
> 
[1 
[ 
> 
[ 
# double 类 型 
> 
> 
[1 
[ 
> 
[ 
# 
> 
> 
[ 
[ 
> 
[ 
> 
[ 


a3<-double type(111.1) 

a3;class (a3) # 默认 对 应 R 的 numeric 类 型 
0 a 

1] "numeric" 

double type(111) 

1] 111 


boolean 类 型 
a4<-bool type (TRUE) 
a4;class (a4) # 默认 对 应 R 的 logical 类 型 


bool type (0) # 0 为 FALSE 


bool type(1) # 非 0 为 TRUE 


# 无 参数 无 返回 值 的 函数 


> a5<-Voildq return type () 

return void 加 

> a5;class (a5) # 返回 值 为 NULL 
NULL 

[1] “NULL" 


2. 向 量 类 型 


向 量 类 型 ，C+ + 对 应 R 语 言 的 默认 映射 关系 。C++ 的 代码 部 分 ， 如 下 所 示 : 


// [[Repp: :export]] 
CharacterVector CharacterVector type (CharacterVector x){ 
return x; 


} 


// [[Repp: :export]] 
StringVector StringVector type (StringVector x){ 
return x; 


} 


// [[Repp: :export]] 
NumericVector NumericVector type (NumericVector x) { 
return x; 


} 


sd 


// [[Rcpp: :export]] 
IntegerVector IntegerVector type (IntegerVector x) { 
return x; 


} 


// [[Repp: :export]] 
DoubleVector DoubleVector type (DoubleVector X) { 
return x; 


} 


// [[Repp: :export]] 
LogicalVector LogicalVector type (LogicalVector x){ 
return x; 


} 


// [[Repp: :export]] 
DateVector DateVector type (DateVector X) { 
return x; 


} 


// [[Repp: :export]] 


DatetimeVector DatetimeVector type (DatetimeVector X) { 
return x; 加 
} 
执行 R 语 言 调用 : 
# Character 向 量 
> a6<-CharacterVector type(c('abc','12345')) 
> a6;class (a6) # 默认 对 应 R 的 character 类 型 
[1] "abe" "23495" 
[1] "character" 
> CharacterVector type(c('abc',123.5，NA, TRUE))  # NA 不 处 理 
[1] "abc" "123.5" NA "TRUE" 
# String 癌 量 ， 完 全 同 Character 疝 量 
> al<-StringVector type(c('abc','12345')) 
> a7;class (a7) 本 # 默认 对 应 R 的 character 类 型 
[1] "abcy" W235 
[1] "character" 
> StringVector type(c('abc',123.5, NA, TRUE)) 
[1] "abc" "123.5" NA TTRUEY 
# Numeric 向 量 
> a8<-NumericVector type (rnorm(5)) 
> a8;class (a8) ee # 默认 对 应 R 的 numeric 类 型 
[1] -0.2813472 -0.2235722 -0.6958443 -1.5322172 0.5004307 
[1] "numeric" 
> NumericVector type (c (rnorm(5),NA,TRUE)) # NA 不 处 理 ，TRUE 为 ] 
[1] 0.1700925 0.5169612 -0.3622637 1.0763204 -0.5729958 
[6] NA 1.0000000 
# Integer 向 量 
> a9<-IntegerVector type(c(11,9.9,1.2)) # 直接 去 掉 小 数位 
> a9;class (a9) # 默认 对 应 R 的 jnteger 类 型 
[1] 11 9 ] 
[1] "integer" 
> IntegerVector type(c(11,9.9,1.2,NA,TRUE)) # NA 不 处 理 ，TRUE 为 1 
[1] 11 9 1NA 1] 
# _ Double 向 量 ， 同 Numeric 向 量 
> al0<-DoubleVector type (rnorm(5)) 
> al0yclass(al0) # 默认 对 应 R 的 numeric 类 型 
[1] 0.9400947 -0.8976913 0.2744319 -1.5278219 1.2010569 
[1] "numeric" 
> DoubleVector type l(c (rnorm(5),NA,TRUE)) # NA 不 处 理 ，TRUE 为 ] 
[1] 2.0657148 0.2810003 2.1080900 -1.2783693 0.2198551 
[6] NA 1.0000000 
# Logical 向 量 
> all<-LogicalVector type (c (TRUE, FALSE)) 
> all;class (al1) # 默认 对 应 R 的 logical 类 型 
[1] TRUE FALSE 
[1] "logical" 
> LogicalVector type (c (TRUE, FALSE, TRUE, 0,—1,NA)) # NA 不 处 理 ，0 为 FALSE， 非 0 为 TRUE 
[1] TRUE FALSE TRUE FALSE TRUE NA 


# Date 癌 量 
al2<-DateVector type(c(Sys.Date(),as.Date('2016-10-10'))) 

Al pClass (al2) # 默认 对 应 R 的 Date 类 型 
] 

|] 


"2016=08-=01™ "2016-=10-10" 


> 

> 

[ 

[ 1 Date 1 

> DateVector type(c(Sys.Date(),as.Date('2016-10-10"'),NA,TRUE,FALSE 
# 

[ 

[ 


~ 一 
~ 一 


NA 不 处 理 ，TRUE 为 1970-01-02，EFRALSE 为 1970-01-01 
1] "2016-08-01" "2016-10-10" NA "1970-01-02" 
5] "1970-01-01 


# Datetime 向 量 
> al3<-DatetimeVector type(c(Sys.time(),as.POSIXct ('2016-10-10°'))) 

> al3;class (al3) # 默认 对 应 R 的 POSIXct 类 型 
[i] "2016=08=01 20705725 C8T™ "2016=10=10 00:00:00 CS 
[Ll “POSIXCE™ “POSLXE™ 
> DatetimeVector type (cl(Sys.time(),as.POSIXct ('2016-10-10"') ,NA, TRUE, FALSE)) 
# NA 不 处 理 
[1] "2016=08=01 20%05;25 CST™ 2016=10=10 00:00:00 CeT" 
[3] NA "1970=01=01 08:00:01 C9T™ 
[5S] “1970=01=01 08%00:00 CaT™ 


3. 矩 阵 类 型 


和 矩阵 类 型 ，C+ + 对 应 R 语 言 的 默认 映射 天 系 。C++ 的 代码 部 分 ， 如 下 所 示 : 


// [[Repp: :export]] 
CharacterMatrix CharacterMatrix type (CharacterMatrix x){ 
return x; 


} 


// [[Repp: :export]] 
StringMatrix StringMatrix type (StringMatrix x){ 
return x; 


} 


// [[Repp: :export]] 
NumericMatrix NumericMatrix type (NumericMatrix X) { 
return x; 


} 


Lt 


// [[Rcpp: :export]] 
IntegerMatrix IntegerMatrix type (IntegerMatrix x){ 
return x; 


} 


// [[Repp: :export]] 
LogicalMatrix LogicalMatrix type (LogicalMatrix x){ 
return x; 


} 


// [[Repp: :export]] 
ListMatrix ListMatrix type (ListMatrix X) { 
return x; 


} 


执行 R 语 言 调用 : 


Charactezr 和 矩阵 
14<-CharacterMatrix type (matTrix (LETTERS[1:20],ncol=4)) 

4;class (al4) 

[yl] [i221 Li3] [;yd 
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String 和 矩阵 ， 同 Charactet 和 矩阵 
15<-StringMatrix type (matrix (LETTERS[1:20],ncol=4)) 
5;class(al5) 

[,1] [,2] [,3] [,4] 
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# Numeric 和 矩阵 
> al6<-NumericMatrix type (matrix (rnorm(20) ,ncol=4) ) 
> al6;class (al6) 


[1] [,2] [Lv 3] [,4] 


[1,] 1.2315498 2.3234269 0.5974143 0.9072356 
[2,] 0.3484811 0.3814024 -0.2018324 0.8717205 
[3,] -0.2025285 2.1076947 -0.3433948 1.1523710 
[4,] -1.4948252 -0.7724951 -0.7681800 -0.5406494 
[5,] 0.4815904 1.4930873 -1.1444258 0.2537099 
[1] "matrix" 
# Integetr 和 矩阵 
> al7<-IntegerMatrix type (matrix(seq(l,10,1ength.out = 20),ncol=4)) 
> al7;class (al7) 
[1 [,2] [,3] [,4] 
[1,] 下 3 5 8 
[2，] 3 6 8 
[3，] 4 6 9 
[4，] 2 4 7 9 
[Syd 2 5 时 10 
[1] "matrix" 
# Logical 和 矩阵 
> al8<-LogicalMatrix type (matrix(c (rep (TRUE, 5), rep (FALSE, 5), rnorm(10)),ncol=4)) 
> al8;class (al8) 
[1 [,2] [,3] [,4] 
[1,] TRUE FALSE TRUE TRUE 
[2,] TRUE FALSE TRUE TRUE 
[3,] TRUE FALSE TRUE TRUE 
[4,] TRUE FALSE TRUE TRUE 
[5，] TRUE FALSE TRUE TRUE 
[1] "matrix" 
# 工 ist 逢 阵 ， 支 持 多 类 型 的 矩阵 
> al9<-ListMatrix type (matrix (rep (list (a=1,b="'2',c=NA,d=TRUE),10),ncol=5)) 
> al9;class (a19) 
[j1] Lv2 [,3] [,4] [,5] 
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4. 其 他 数据 类 型 


其 他 数据 类 型 包括 : Ri 语言 特有 的 数据 类 型 数据 框 (data.frame) ， 环 境 空间 (Environment) ，S3、S4、RC 等 对 象 类 型 。 


// [[Repp: :export]] 
Date Date type (Date X) { 
return x; 


ime Datetime type (Datetime X) { 
turn x; 


// [[Repp: :export]] 


// [[Repp: :export]] 
S4 S4 type(S4 x){ 


return x; 


} 


// [[Rcpp: :export]] 
RObject RObject type (RObject x){ 
return x; 


} 


// [[Rcpp: :export]] 
SEXP SEXP type (SEXP x){ 
return x; 


} 


// [[Repp: :export]] 


Environment Environment type (Environment x){ 
return x; 


} 


执行 R 语 言 调用 : 
# data.frame 类 型 
> al9<-DataFrame type (data.frame (a=rnorm(3),b=1:3)) 
> al9;class (al19) 
a b 
1 -1.8844994 1 
2 0.6053935 2 
3 -0.7693985 3 
[1] "data.frame" 


# 1ist 类 型 
> a20<-List type (list (a=1,b="'2',c=NA,d=TRUE)) 


> a20;class (a20) 
$a 


| 下 
$b 
了 2 


NA 


TRUE 
ey 


Date 类 型 
a21<-Date type (Sys.Date () ) 
a21;class (a21) 
| "2016=08=014" 
1] Daten 

Date type (Sys .time () ) # 不 能 正确 处 理 POSIXct 类 型 的 数据 
1] "4026842-05-26" 


下 VV VY 


POSIXct 类 型 

a22<-Datetime type (Sys.time () ) 

a22;Cclass (a22) 

1 - “2016=08=01 20727737 CT 

1 POSTXGELY VPOSTXC" 

Datetime type (Sys.Date () ) # 不 能 正确 处 理 Date 类 型 的 数据 
1] "1970-01-01 12:43:34 CST" 


一 V 一 呈 V VY 


S3 面 向 对 象 类 型 ， 对 应 S4 的 类 型 定义 
setClass ("Person", slots=list (name="character",age="numeric")) 
s4<-new ("Person",name="F",age=44) 
a23<-S4 type(s4) 

a23;class (a23) 

object of class "Person" 

Lot "name": 

1] we 

Lot "age": 

1] 44 

1] "Person" 

ttr(, "package") 

1] ".GlobalEnv" 


# S3 面 向 对 象 类 型 ， 没 有 对 应 的 类 型 ， 通 过 RObject 来 传 值 
> s3<-structure (2, class = "foo") 

> a24<-RObject type(s3) 

> a24;class (a24) 

1] 2 


多 全 全 全 


人 


] ] "foo"™ 


# RObject 也 可 以 处 理 S4 对 象 

> a25<-RObject type (S4) 

> a25;class (a25) 

An object of class "Person" 


Slot "name" 
E ] MA 
Slot "age" 
[1] 44 


[1] "Person" 
attr(, "package") 
[1] ".GlobalEnv" 


# RObject 也 可 以 处 理 RC 对 象 
> User<-setRefClass ("User",f ields=list (name="character")) 
> rc<-User$new (name="u1") 
> a26<-RObject type (rc) 
> a26;class (a26) 
Reference class object of class "User" 
ield "name": 
Lap 1 
] "ser" 
ttr(, "package") 
] ".GlobalEnv" 


i 
上 | 
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RObJject 也 可 以 处 理 function 类 型 

> a27<-RObject type (function (x) x+2) 
> a27;class (a27) 

function (x) x+2 

[1] "function" 


# environment 类 型 

> a28<-Environment type (new.env ()) 
> a28;class (a28) 

<environment: Ox0000000015350a80> 
[1] "environment" 


# SEXP 为 任意 类 型 ， 通 过 具体 调用 时 再 进行 类 型 判断 
> SEXP type('fdafdaa') 
[1] "fdafdaa" 


> SEXP type (rc) 

Reference class object of class "User" 
Field "name": 

(区 风 Wm 


> SEXP type (data.frame (a=rnorm(3) ,b=1:3)) 
ab 

1 -0.5396140 1 

2 0.1694799 2 

3 -1.8818596 3 


> SEXP type (function (x) x+2) 
function (x) x+2 


最 后 总 结 一 下 R 和 Rcpp 中 类 型 对 应 的 关系 ， 如 表 4-1 所 示 。 


表 4-1 


R 和 Rcpp 中 类 型 对 应 的 关系 


C++ 类 型 R 类 型 


char character 
Int Integer 
double numeric 
bool logical 
Repp::Date Date 
Repp::Datetime POSIXct 
Repp::CharacterVector character 
Repp::StringVector character 
Repp::NumericVector numerlc 
Repp::IntegerVector integer 
Repp::DoubleVector numerlc 
( 续 ) 

C++ 类 型 R 类 型 
Repp::LogicalVector logical 
Repp::Date Vector Date 
Repp::Datetime Vector POSIXct 
Repp::CharacterMatrix matrix 
Repp::StringMatrix matrix 
Repp::NumericMatrix matrix 
Repp::IntegerMatrix matrix 
Repp::Logical Matrix matrix 
Repp::List Matrix matr1ix 
Repp::DataFrame data.frame 
Repp::List list 
Repp::S4 S4 
Repp::Environment environment 
Repp::RObject 任意 类 型 
Repp::SEXP 任意 类 型 


本 文 简单 地 介绍 了 通过 R 语 言 Rcpp 包 调用 C+ + 程序 的 一 种 方法 ， 调 用 的 关键 点 就 在 于 数据 类 型 的 匹配 ， 从 而 保证 R 语 言 和 C++ 之 间 的 数据 传输 。 从 上 面 的 测试 来 看 ，R 语 言 中 的 所 有 数据 类 型 都 可 以 通过 
Rcpp 包 映射 到 C+ + 的 程序 中 。 接 下 来 ， 我 们 就 可 以 根据 自己 的 需求 ， 把 一 些 更 关注 性 能 的 程序 放 到 C++ 中 来 实现 ， 从 而 提高 计算 效率 。 


4.3” 当 Ri 语言 遇 上 Docker 


问题 


如 何 用 R 语 言 实现 应 用 级 的 并 行 化 ? 


> 


O 


R 语 言 作为 数据 分 析 的 工具 ， 已 经 广泛 被 大 家 接受 并 使 用 。 但 要 把 R 语 言 项 目 工程 化 部 署 到 生产 环境 ， 并 提供 在 线 用 户 使 用 ， 却 是 难度 很 大 的 。 主 要 原因 就 是 R 本 身 是 单线 程 的 ， 不 支持 并 行 处 理 。 
当 R 遇 上 Docker 会 发 生 什么 呢 ? 本 文 将 做 详细 的 解释 。 
3.1” 当 R 遇 上 Docker 


前 言 中 提 到 ，R 运 行 时 环境 是 单线 程 的 ， 不 支持 并 行 处 理 ， 所 以 我 们 很 难 把 R 直 接应 用 到 生产 环境 中 。 当 R 遇 上 Docker， 就 出 现 了 一 个 可 以 解决 上 面 问题 的 方案 。 


通过 Docker 的 容器 化 技术 ， 把 R 的 应 用 Docker 化 。 每 当 用 户 发 出 请 求 时 ， 程 序 可 以 自动 地 在 线 启 动 一 个 Docker 化 的 容器 ， 来 装载 R 的 任务 ， 部 署 、 运 行 、 计 算 ， 并 返回 结果 。 


R 程序 
Docker 容器 


3 次 并 发 请 求 一 国有 MoE 起 


图 4-3 3 次 并 发 架构 


从 极端 的 情况 考虑 ， 如 果 面 对 100 万 次 并 发 的 请 求 ， 我 们 需要 启动 100 万 个 Docker 的 容器 ， 每 个 容器 单独 执行 自己 的 任务 。 但 这 种 情况 是 要 避免 的 ， 因 为 R 本 身 是 做 数据 任务 的 ， 并 不 善于 处 理 Web 请 
求 。 如 果 可 以 把 用 户 的 大 批量 请 求 转换 成 少量 的 数据 计算 的 任务 ， 那 么 这 个 设计 就 完美 地 解决 了 R 由 于 并 发 而 不 能 被 工程 化 的 问题 。 


R 程序 


Docke r 容器 


用 户 请 求 于。 服务 器 R 程 施 


Docke r 容器 


R 程序 
Docker 容器 


图 4-4 3 万 次 并 发 架构 


比如 ， 针 对 大 量 用 户 的 重复 性 计算 ， 把 R 的 计算 结果 保存 在 缓存 池 中 。 


4.3.2 ”用 Docker 来 管理 R 的 程序 
设计 方案 定好 ， 接 下 来 就 是 动手 实践 了 。 
操作 过 程 分 为 4 步 : 
1) 要 有 Docker 的 环境 。 
2) 找到 第 三 方 成 熟 的 R 语 言 的 Docker 镜 像 。 
3) 把 R 程 序 装 进去 。 
4) 打包 、 运 行 、 上 传 。 
1.Docker 的 环境 
如 何 安装 Docker 环 境 这 里 不 进行 详细 介绍 ， 具 体 请 参考 本 书 附录 。 
本 机 的 系统 环境 : 
. Linux Ubuntu 14.04.4 
. R: vetsion 3.3.1 x86_64-pc-linux-gnu (64-bit) 
2. 找 到 第 三 方 成 熟 的 R 语 言 的 Docker 镜 像 


在 Docker Hub 中 ， 搜 索 关 键 字 r， 共 有 535 条 结果 。 我 们 直接 选用 排 在 第 一 位 的 base 作 为 Docker 容 器 的 基础 就 行 了 。 


rgqanlizatons 


Repositories|(535) | 


r-base 
official 


rocker/r-base 
public | automated build 


cardcorp/r-javai 
public | automated build 


cardcorp/r-pandoc 
public | automated build 


图 4-5 ”Docker 仓 库 


从 仓库 中 下 载 r-base 镜 像 。 


# 下 载 r-base 镜 像 ， 大 概 300MB 要 下 一 会 儿 


~ sudo docker pu r-base 

Using default tag: latest 

latest: Pulling from library/r-base 

9cd73496e1l3f: Pull complete 

fl0af350cd29: Pull complete 

eeal/lb33eea97: Pull complete 

c91475e50472: Pul1 complete 

1eo5e5ft6785b4: Pull complete 

8c4091261ff6: Pull complete 

Digest: sha256:5f06e5a89cc64cbc513d02a8c650ea8bcbf0499795add57d18793069795c60 


Status: Downloaded newer image for r-base:latest 


# 查看 本 地 镜像 列表 


~ sudo docker images 


REPOSITORY TAG MAGE ID CREATED SIZE 
bsspirit/fensme latest 8496b10e857a 2 hours ago 182.8 MB 
ubuntu latest f8d79ba03c00 2 weeks ago 126.4 MB 
r-base latest e2abe45e47d7 3 weeks ago 959.9 MB 
3. 把 R 程 序 装 进 去 


把 R 程 序 放 进去 之 前 ,我 们 要 先 通过 命令 交互 


玻 


方法 ， 看 看 r-base 容 器 是 什么 样子 的 。 


运行 r-base 容 器 ， 会 直接 打开 一 个 R 的 命令 行 窗口 。 


~ sudo docker run -ti --rm r-base 


及 version 3,.3.L {2016=06=21}) -== "Bug in Your Hair™ 
Copyright (C) 2016 The R Foundation for Statistical Computing 
Platform: x86 64-pc-linux-gnu (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type ‘'license()' or 'licence()' for distribution details. 


Natural language support but running in an English locale 


R is a collaborative project with many contributors. 


Type 'contributors()' for more information and 

'citation()' on how to cite R or R packages in publications. 
Type 'demo()' for Some demos, 'help()' for on-line help, or 
'help.start()' for an HIML browser interface to help. 


Type 'q()' to quit R. 


> 


我 们 通过 执行 R 语 言 程 序 了 解 一 下 Docker 环 境 的 信息 、。 


# BR 程序 启动 路 径 


> getwd () 

[ 下 ] 1 / 

# 当前 路 径 中 的 目录 
> dir() 

[1] TY "bootnm "dev" 人 全 七 全 "home" Ww "]ib64 1 "media™ "mnt" 
[10] "OBE "PEOG™ TrOGEtY 下 天 这 站 下 "sbDinv 7 SS” "tmP7" WS 
[L999] var 
# 用 户 身份 
> system('whoami') 
root 


# 系统 信息 
> sessionInfo() 
R version 3.3.1 (2016-06-21) 


Platform: x86 64-pc-linux-gnu (64-bit) 
Running under: Debian GNU/Linux stretch/sid 
locale: 
[1] LC CTYPE=en US.UTF-8 LC NUMERIC=C 
[3] LC TIME=en US.UTF-8 LC COLLATE=en US.UTF-8 
[5] LC MONETARY=en US.UTF-8 LC MESSAGES=en US .UTF-8 
[7] LC PAPER=en US.UTF-8 LC NAME= 
[9] LC ADDRESS=C LC TELEPHONE=C 
[11] LC MEASUREMENT=en US.UTF-8 LC IDENTIFICATION=C 
attached base packages: 
[1] stats graphics grDevices utils datasets methods base 
# R 语 言 版 本 
> R.Version () 
$platform 


"x86 64-pc-linux-gnu" 


Sarch 
9 x8 6 64" 


$os 
[1] "lingox-grnu" 


$system 
[1] "x86 64, linux-gnu" 


$status 
Smajor 

全 半 妆 和 We sd 
Sminor 

人 村 3 


$year 
二 "20] 6 


Smonth 
「 了 mwOGR 


$day 
sl 本 


SSVvn rev. 
[1] "70800" 


$language 
i "mR" 


$version.string 
[1] "R version 3.3.1 (2016-06-21)" 


Snickname 
[1] "Bug in Your Hair" 


f8q 


通过 上 面 的 几 条 命令 ，r-base 容 器 的 系统 环境 已 经 安装 成 功 。 接 下 来 ， 我 们 可 以 写 一 个 R 的 算法 ， 让 这 个 程序 在 r-base 的 容器 中 运行 ， 之 后 退出 容器 。 


新 建 项 目 目录 : 


~ mkdir ret && cd ret 
~ pwd 
/home/conan/ret 


我 们 用 a.r 写 一 个 计算 万 科 (VANKE) 000002.SZ 股 票 收益 率 的 程序 。 数 据 从 yahoo 财 经 进行 采集 ，R 语 言 用 于 计算 收益 率 ， 计 算 结果 在 控制 台 打 印 ， 如 图 4-6 所 示 。 


ANKE (000002.SZ) 斌 Addito watchlist 
Shenzhen - Shenzhen Delayed Price. Currency in CNY 


22.89 -0.65 (-2.76%) 


At close: 3:-00 AM EDT 


Conversations Statistics Profile Financials Options Holders Historical Data Analysts 


23.59 Market Cap N/A 1D 5D 1M YTD MAX <” Interactive chart 


23.54 P/E Ratio (ttm) N/A 
22.88 x Beta N/A 


22.89x Volume 120,002,409 


Day's Range 22.88 - 23.59 Avg Vol (3m) 247,021,756 


52wk Range 16.74 -27.68 Dividend & Yield N/A (N/A) 


Oct 25, 2016 - 
1y Target Est NA Eamings Date Nov 1, 2016 


图 4-6 VANKE 的 股票 


新 建 R 语 言 算法 文件 a.r。 


~ Vi a.r 


install.packages (c('gquantmod', 'PerformanceAnalytics')) 

library (quantmod) 

library (PerformanceAnalytics) 

VANKE<-getSymbols ("000002.SZ",auto.assign = FALSE, from = '2010-10-10') 
close<-VANKE$'000002.5Zz.Close' 
ret<-CalculateReturns (close, method = "discrete") 
cumret<-cumprod( (ret+1) [-1])-1 
VANKP ret<-merge (close,ret,cumret) 

names (VANKE ret)<-c('close','ret','cumret') 
print (tail (VANKE ret)) 


我 们 先 在 本 机 中 运行 这 段 代 码 。 


安装 类 库 
install.packages (c('gquantmod', 'PerformanceAnalytics')) 
装载 类 库 
library (Guantmod) 

library (PerformanceAnalytics) 


VV 站 V 丰 


# 获得 VANKE 每 K 线 数据 
> VANKE<-getSymbols ("000002.S2"vauto.assign = FALSE, from = '2010-10-10') 


# 收盘 价 
> close<-VANKES$'000002.S5Zz.Close' 


# 每 日 收益 率 = (T 日 收盘 价 - (IT-I 日 收盘 价 ) ) /T-1 日 收盘 价 
> 


ret<-CalculateReturns (close, method = "discrete") 


# 每 日 累计 收盘 率 = (TT 日 收益 率 +1)* (T+1 日 收益 率 +1) *http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0OEBPS/Text/...*(T+N 日 收益 率 +1) -1 
> cumret<-cumprod( (ret+1) [-1])-1 


# 合并 数据 集 
> VANKE ret<-merge (close,ret,cumret) 
> names (VANKE ret)<-c('close','ret','cumret') 


# 查看 VANKE 最 近 几 日 收益 率 
> print (tail (VANKE ret)) 

close ret cumret 
2016-08-18 25.58 -0.010444874 1.893665 
2016-08-19 24.59 -0.038702111 1.781674 
2016-08-22 24.70 .004473363 1.794118 
2016-08-23 24.70 .000000000 1.794118 
2016-08-24 23.99 -0.028744939 1.713801 
2016-08-25 23.54 -0.018757816 1.662896 


人 


接 下 来 ， 编 写 Dockerfile 通 过 加 载 外 部 文件 的 方法 。 


~ Vi Dockerf ile 


FROM r-base 

COPY . /usr/local/src/myscripts 
WORKDIR /usr/local/src/myscripts 
CMD ["Rscript", "a.r"] 


4. 打 包 、 运 行 、 上 传 


进行 打包 ， 并 生成 Docker 的 镜像 文件 a.r。 


~ sudo docker build -t a.r . 
[sudo] password for conan: 
Sending build context to Docker daemon 3.072 kB 
Step 1 : FROM r-base 
---> e2abe45e47d7 
Step 2 : COPY . /usr/local/src/myscripts 
---> e6ef215d3683 
Removing intermediate container aaabfdfe92ab 
Step 3 : WORKDIR /usr/local/src/myscripts 
---> Running in e3f2c65b947a 
---> c667baee06bf 
Removing intermediate container e3f2c65b947a 
Step 4 : CMD Rscript a.r 
---> Running in dc040bbdd3b9 
---> 9a48d6dc02fe 
Removing intermediate container dc040bbdd3p9 
Successfully built 9a48d6dc02fe 


启动 r-base 容 器 ， 运 行 a.r 的 脚本 。 


~ Sudo docker run a.r 
如 图 4-7 所 示 是 万 科 收 益 率 的 计算 结果 。 


In library(package, lib.loc = lib.loc, character.only = TRUE, logical.return = TRUE， 
there 1s no package called ‘PerformanceAnalytics 

Loading required package: xts 

Loading requlred package: z00 

Attaching package: “z00 

The following objects are masked from “package:base : 

as.Date, as.Date.numeric 

Loading requlred package: TTR 

Loading requlred package: methods 

Version 0.4-0 included new data defaults. See ?getSymbols. 

Attaching package: ‘PerformanceAnalytics’ 


The following object 1s masked from “package:graphics : 


legend 


As of 0.4-0, “getSymbols' uses env=parent.frame() and 
auto .ass1ign=TRUE by default. 


This behavior WILL be phased out ln 0.5-© when the call WILL 
default to use auto.assign=FALSE. getOption("getSymbols.env") and 
getOptions("getSymbols.auto.assign") are now checked for alternate defaults 


This message 1S shown once per session and may be disabled by setting 
options("gqetSymbols .warning4.0"=FALSE). See ?getSymbols for more details. 

ret cumret 

2016-08- 18 25. .010444874 1.893665 
pi .038702111 1.781674 

24. .004473363 1.794118 

2016-08-23 24. .0000090009 1.794118 
2916-98-24 23. .028744939 1.713801 
2916-98-25 23. .018757816 1.662896 


图 4-7 命令 行 日 志 
最 后 一 步 ， 不 忘 上 传 到 docker hub,， 仓库 地 址 为 : https://hub.docker.com/r/bsspirit/ret/。 


上 传 镜像 的 操作 命令 : 


~ sudo docker tag 9a48d6dc02fe pbsspirit/ret 
~ sudo docker push bsspirit/ret 


如 果 你 有 Docker 的 环境 ， 可 以 直接 用 下 面 的 命令 进行 容器 下 载 和 运行 。 


~ sudo docker run bsspirit/ret 


R 和 Docker 的 相遇 ， 给 R 提 供 了 并 行 计算 施展 的 空间 。Docker 和 R 的 相遇 ， 也 让 Docker 能 够 切入 数据 处 理 领域 ,拓展 更 广阔 的 应 用 场景 。 感 谢 R 和 Docker 给 程序 员 的 世界 带 来 了 新 的 机 会 ! 


金融 市 场 很 大 ， 不 仅 有 股票 ， 更 大 的 市 场 属于 债券 。 本 章 重 点 介绍 了 如 何 运用 R 语 言 进行 债券 分 析 ， 做 一 些 债 券 投资 和 套利 。 低 风险 的 债券 投资 说 不 定 是 我 们 投资 理财 更 好 的 选择 。 


5.1 了 解 国债 


如 何 进行 国债 交易 ? 


http://blog.fens.me/finance-treasury-bond/ 


国债 以 国家 信用 为 基础 ， 是 各 种 市 场 经 济 定价 的 基准 利率 。 了 解 国债 ， 才 能 看 懂 政 策 ， 看 明白 市 场 。 


5.1.1 ”国债 基本 介绍 


责 是 国家 以 其 信用 为 基础 ， 按 照 债 的 一 般 原 则 ， 通 过 向 社会 筹集 资金 所 形成 的 债权 债务 和 天 系 。 国 债 是 由 国家 发 行 的 债券 ， 是 中 央 政 府 为 筹集 财政 资金 而 发 行 的 一 种 政府 债券 ， 是 中 央 政 府 向 投资 者 出 
具 的 、 承 诺 在 一 定时 期 支付 利息 和 到 期 偿还 本 金 的 债权 债务 赁 证， 由 于 国债 的 发 行 主体 是 国家 ， 所 以 它 具 有 最 高 的 信用 度 ， 被 公认 为 是 最 安全 的 投资 工具 。 


责 是 国家 信用 的 主要 形式 。 中 央 政 府 发 行 国债 的 目的 往往 是 弥补 国家 财政 赤字 ， 或 者 为 一 些 耗资 巨大 的 建设 项 目 、 以 及 某 些 特殊 经 济 政策 乃至 为 战争 筹措 资金 。 由 于 国债 以 中 央 政 府 的 税收 作为 还 本 
付 息 的 保证 ， 因 此 风险 小 ， 流 动 性 强 ， 利 率 也 较 其 他 债券 低 。 


国债 利率 应 是 资本 市 场 的 基准 利率 ， 而 银行 储蓄 人 存款 是 无 法 起 到 这 种 信用 工具 作用 的 。 国 债 是 由 中 央 财 政 发 行 的 ， 或 者 说 国债 与 国家 发 行 的 货币 相 比 ， 是 仅 次 于 货币 的 一 种 信用 凭证 ， 几 乎 能 够 起 到 准 
货币 的 作用 。 由 于 国债 的 变现 能 力 最 强 、 最 灵 便 ， 在 所 有 的 信用 工具 之 中 ， 国 债 的 利率 只 能 是 最 低 的 。 因 此 ， 国 债 的 利率 客观 上 要 起 到 基准 利率 的 的 作用 。 在 资本 资产 定价 模型 中 ， 所 使 用 的 无 风险 收益 率 
就 是 以 短期 国债 利率 进行 折算 的 。 


在 资本 市 场 中 ， 规 范 的 市 场 运 作 应 保持 国债 利率 的 基准 利率 地 位 ， 几 不 能 使 国债 利率 成 为 基准 利率 的 市 场 信用 关系 ， 必 定 是 不 规范 的 。 同 样 ， 国 债 的 这 一 信用 功能 也 是 银行 储蓄 所 不 具备 的 。 在 有 国债 
存在 的 前 提 下 ， 银 行 储蓄 的 利率 不 应 该 也 不 允许 成 为 基准 利率 ， 除 非 金融 市 场 的 信用 关系 是 担 曲 的 。 在 现实 生活 中 ， 出 现 国 债 利率 高 于 银行 储蓄 利率 的 情况 是 不 正常 的 。 


接 下 来 ,我们 用 数据 画 出 1 年 期 债券 和 1 年 期 定期 存款 的 走势 图 ， 直 观 地 比较 一 下 。 从 Wind 中 导出 从 2002 年 到 2015 年 的 数据 。 数 据 格式 如 下 : 


2002-01-04,2.5850 
2002-01-07,2.6009 


2002-01-08,1.9156 ， 
2002-01-09,1.9040 ， 
2002-01-10,1.8987 ， 
2002=01=117 Li:8757 7 
2002-01-14,1.6794 ， 
2002=01=15, 1. /1265 7 
2002-01-16,1.7403 ， 
2002=01=17;1./165 7 


数据 一 共 3 列 ， 分 别 是 : 


指标 名 称 。 


. 中 俩 国债 到 期 收益 率 : 1 年 。 


' 定期 存款 利率 : 1 年 〈 整 存 整 取 ) ， 数 据 大 部 分 为 空 ， 只 有 利率 调整 时 才 有 值 。 


本 文 所 使 用 的 系统 环境 : 


* Win1064bit 


* R: 3.2.3 x86_64-w64-mingew32/x64 b4bit 


我 们 通过 R 语 言 进 行 画图 


加 载 类 库 
library (xts) 
Jibrary (ggplot2) 


# 读 入 数据 bondSaving .csv 
> bs<-read.csv ("bondSaving .csv",header=TRUE 


# 重 定义 列 名 ，bond 为 国债 ，saving 为 储蓄 

> names (bs)<-c ("date", "bond", "saving") 

# 转换 为 时 间 序 列 类 型 

> bsxts<-xts (bs[-1],order.by = as.Date (bs$date)) 
# 对 空 值 向 后 填充 


> bsxts<-na.1locf (bsxts, fromLast=FALSE) 


图 ， 如 图 5-1 所 示 
-ggplot (aes (x=Index, y=Value, colour=Series),data=fortify (bsxts,melt=TRUE 
-gt+geom line () 
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图 5-1 中 ，x 轴 为 时 间 ，y 轴 为 利率 值 。 我 们 对 2002 年 ~ 2015 年 1 年 期 债券 到 期 收益 率 和 1 年 期 定期 存款 的 利率 进行 比较 。 陡 峭 的 曲线 (bond) 为 中 债 国债 到 期 收益 率 ， 平 直 曲 线 (saving) 为 中 国人 民 
银行 发 布 的 1 年 期 定期 储蓄 存储。 很 多 时 候 ， 国 债 利率 都 高 于 存款 利率 。 为 什么 是 这 样 的 情况 ”这 需要 我 们 更 深入 地 理解 中 国 经 济 才能 解释 。 


5.1.2 ”国债 的 意义 
1. 友 行 国债 的 必要 性 
(1) 筹措 军费 
在 战争 时 期 军费 支出 额 巨 大 ， 在 没有 其 他 筹资 办 法 的 情况 下 ， 可 通过 发 行 战争 国债 筹集 资金 。 发 行 战争 国债 是 各 国政 府 在 战 时 通用 的 方式 ， 也 是 国债 的 最 早起 源 。 
(2) 平衡 财政 收 支 
一 般 来 讲 ， 平 衡 财政 收 支 可 以 采用 增加 税收 、 增 发 通货 或 发 行 国债 的 办 法 。 


增加 税收 是 取 之 于 民用 之 于 民 的 作法 ， 固 然 是 一 种 好 办 法 但 是 增加 税收 有 一 定 的 限度 ， 如 果 税 赋 过 重 ， 超 过 了 企业 和 个 人 的 承受 能 力 ， 将 不 利于 生产 的 发 展 ， 并 会 影响 今后 的 税收 。 
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图 5-1 1 年 期 债券 和 1 年 期 定期 存款 
增发 通货 是 最 方便 的 作法 ， 但 是 此 种 办 法 是 最 不 可 取 的 ， 因 为 用 增发 通货 的 办 法 弥补 财政 赤字 ， 会 导致 严重 的 通货 膨胀 ， 其 对 经 济 的 影响 最 为 剧烈 。 


在 增 税 有 困难 ， 又 不 能 增发 通货 的 情况 下 ， 采 用 发 行 国债 的 办 法 弥补 财政 赤字 是 一 项 可 行 的 措施 。 政 府 通 过 发 行 债券 可 以 吸收 单位 和 个 人 的 闲置 资金 ， 帮 助 国家 度 过 财政 困难 时 期 。 但 是 赤字 国债 的 发 
行 量 一 定 要 适度 ， 否 则 也 会 造成 严重 的 通货 紧缩 。 


(3) 筹集 建设 资金 
国家 要 进行 基础 设施 和 公共 设施 建设 ， 为 此 需要 大 量 的 中 长 期 资金 ， 通 过 发 行 中 长 期 国债 ， 可 以 将 一 部 分 短期 资金 转化 为 中 长 期 资金 ， 用 于 建设 国家 的 大 型 项 目 ， 以 促进 经 济 的 发 展 。 
(4) 借 换 国债 的 发 行 


借 换 国债 是 为 偿还 到 期 国债 而 发 行 ， 在 偿 债 的 高 峰 期 ， 为 了 解决 偿 债 的 资金 来 源 问题 ， 国 家 通过 发 行 借 换 国债 ， 用 以 偿还 到 期 的 旧 债 ， 这 样 可 以 减轻 和 分 散 国家 的 还 债 负担 。 


2. 国 债 的 分 类 


从 债券 形式 来 看 ， 我 国 发 行 的 国债 可 分 为 凭证 式 国债 、 实 物 式 国债 、 记 账 式 国 债 三 种 。 


. 凭证 式 国债 : 不 能 上 市 流通 ， 从 购买 之 日 起 计 息 。 在 持 有 期 内 ， 持 券 人 如 遇 特殊 情况 需要 提取 现金 ， 可 以 到 购买 网 点 提前 竞 取 。 提 前 竞 取 时 ， 除 偿还 本 金 外 ， 利 息 按 实际 持 有 天 数 及 相应 的 利率 档次 
计算 ， 经 办 机 构 按 竞 付 本 人 金 的 1% 收 取 手 续费 。 


` 实物 式 国债 : 储蓄 国债 (也 称 电 子 式 国债 ) 是 政府 面向 个 人 投资 者 发 行 ， 以 吸收 个 人 储蓄 资金 为 目的 ， 满 足 长 期 储蓄 性 投资 需求 的 可 流通 、 不 记名 的 国债 品种 。 电 子 储蓄 国债 就 是 以 电子 方式 记录 债 
权 的 储 蔷 国债 品 


“ 记 账 式 国 债 : 以 记 账 形式 记录 债权 ， 由 财政 部 发 行 ， 通 过 证 券 交 
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统 发 行 和 交易 ， 可 以 记名 、 挂 失 、 可 上 市 转让 。 
5.1.3 ” 记 账 式 国债 
投资 者 进行 记 账 式 证 券 买 卖 ， 必 须 在 证 券 交 易 所 设立 账户 。 由 于 记 账 式 国 债 的 发 行 和 交易 均 无 纸 化 ， 所 以 效率 高 ， 成 本 低 ， 交 易 安全 。 
通过 交易 所 发 行 的 记 账 式 国 债 列表 如 图 5-2 所 示 。 
全 部 国债 
更 新 时 间 :2017-02-17 
代码 | 简称 
130779 15 足 州 20 
101917 国债 917 
101617 国债 1617 
101614 国债 1614 
101613 国债 1613 
101612 国债 1612 
101611 国债 1611 
101608 国债 1608 
101606 国债 1606 
101605 国债 1605 


101603 国债 1603 21 


101602 国债 1602 En 


101528 国债 1528 . 87 


101522 国债 1522 l 147 


101516 国债 1516 . 9， 217 
图 5-2 ” 记 账 式 国债 列表 


我 们 通过 证 券 代码 ， 可 以 自行 查询 对 应 的 国债 情况 。 


5.1.4 国债 101308 


下 面 以 国债 101308 为 例 做 具体 的 解释 。2013 年 记 账 式 附 息 ( 八 期 ) 国债 (以 下 简称 “本 期 国债 ”) 已 发 行 结束 ， 根 据 财政 部 通知 ， 本 期 国债 于 2013 年 4 月 24 日 起 在 本 所 上 市 交易 。 
本 期 国债 为 7 年 期 国定 利率 附 息 式 国债 ， 证 券 编 码 101308， 证 券 简称 国债 1308， 票 面 利率 3.29%， 标 准 交 易 单位 10 张 ，2020 年 4 月 18 日 到 期 还 本 并 支付 最 后 一 期 利息 。 


表 5-1 国债 101308 的 基本 资料 


字段 
俩 芬 名 称 
债券 简称 
债券 代码 
国债 类 型 
发 行 日 期 
发 行 量 (元 ) 
发 行 价格 (元) 
上 市 日 期 
交易 所 
交易 单位 
每 张 面 值 
期 限 (年 ) 
计 息 方式 
年 利率 (%) 
基本 利 差 
付 息 方式 
到 期 日 
摘牌 日 


交易 截图 : 最 近 10 日 分 时 图 ， 截 图 时 间 为 2013 年 12 月 30 日 11: 29。 


i 元 理财 服务 平 全 ”交易 已 登录 、 国 债 1308 


自问 迪 侍 加 相关 指数 国志 指标 。 国 报表 分 怕 

返回 ”大 和 走势 ”多 日 分 时 分 时 统计 “设置 祯 获 “分析 图 。 基本 资料 多 股 同 列 。 自 管理 “人 定制 版 面 。 鸭 数 据 管理 EN 选 有 系统 
国债 1308 最 近 10 日 分 时 成 交 里 

92.528 


92.456 
92.385 


明细 


2013 年 记 账 式 附 息 ( 八 期 ) 国债 


国债 1308 
101308 

附 息 债券 
2013-04-17 
30000000000.00 
100 

2013-04-24 
深圳 证 券 交 易 所 
在 


100.00 

7 

固定 利率 
3.29 


每 年 付 息 一 次 
2020-04-18 


92.314 


92.243 


92.171 


92.100 
92.029 
91.957 


91.886 
91.815 
91.744 


91.672 


2200 


1833 
1467 
1100 


0 | | | | | - 直 | 
Es [| [| | [有 | 上 | 


1213 古 12119/ 四 12520 岳 12123/ 一 4 二 12125/= 
成 交 量 | 指标 | 量 比 | 买卖 力道 | 竞价 图 | 资金 驱动 力 
涨幅 %! 现价 ” 涨 谏 % 量 线 。 换 手 % 涨 跌 总 量 市 需 ( 动 ) ”活跃 度 总 命 额 


关联 品种 
扩展 区 | 关联 报价 


图 5-3 ”国债 1308 截 图 
相关 解释 
` 交易 非常 不 活跃 ， 流 动 性 很 差 。 
" 最 近 10 日 中 ， 在 12 月 25 日 时 有 明显 的 交易 ， 主 要 因为 价格 便宜 在 每 张 在 92 元 左右 ， 非 常 接近 底线 。 
-今日 有 4 笔 交 易 ， 以 买 一 价 成 效 ， 只 有 4 手 〈40 张 ) 。 
.今日 应 计 利 息 是 2.32， 每 日 都 会 增长 一 点 ， 最 大 为 3.29， 每 年 付 息 后 归 0。 
. 结算 价 全 价 = 交 易 价 + 应 计 利 息 =92.4+2.32=94.72。 
` 到 期 收益 率 (4.81) = 〈 到 期 本 息 和 -债券 买 入 价 ) / 《债券 买 入 价 * 剩 余 到 期 年 限 ) *100%。 


如 果 我 们 持 有 的 国债 到 期 ， 到 期 收益 率 也 是 4.81， 除 非 国家 破产 ， 基 本 无 风险 ， 但 收益 率 相对 较 低 ! 


5.1.5 ”国债 的 历史 表现 


下 面 我 分 别 截取 从 2002 ~ 2017 的 1 年 期 、3 年 期 、10 年 期 的 中 债 国债 到 期 收益 率 数 据 进行 对 比 。 


用 R 语 言 画 出 收益 率 曲 线 : 


el Ee 
12726 四 12127! 五 12/30/— 


流通 市 值 。 买 价 


101308 国情 1308 
35.11% 委 差 66 


92.990 20 
92.988 1 
92.799 10 
92.798 
92.790 
92.400 
92.110 
92.100 
90.000 
88.870 
92.400 今 开 
0.300 最 高 
0.33% 最 低 
4 量 比 


E 0 内 盘 
应 计 利息 
结算 价 全 价 
到 期 收益 率 


10:43 92.400 


# 读 取 数据 bonds .csv 


> bonds<-read.csv ("bonds .csv",header=TRUE 


# 列 名 重 定义 ytml 为 1 年 期 ,ytm3 为 3 年 期 ,ytm10 为 10 年 期 
> names (bonds) <-c ("date", "ytml", "ytm3", "ytm10") 


# 转换 为 时 间 序 列 类 型 
> bondsxts<-xts (bonds[-1],order.by = as.Date (bonds$date)) 
> bondsxts<-na.1locf (bondsxts, fromLast=FALSE) 


a 


画图 ， 如 图 5-4 所 示 
g<-ggplot (aes (x=Index, y=Value, colour=Series),data=fortify (bondsxts,melt=TRUE 
g<-gtgeom line () 
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如 图 5-4 所 示 ， 图 中 位 于 上 方 的 曲线 为 10 年 期 国债 到 期 收益 率 ， 位 于 中 间 的 曲线 为 3 年 期 国债 到 期 收益 率 ， 位 于 下 方 的 曲线 为 1 年 期 国债 到 期 收益 率 。 


通过 画图 对 比 我 们 发 现 : 

.10 年 国债 到 期 收益 率 的 走势 比 1 年 期 和 3 年 期 的 平稳 ，1 年 期 的 走势 波动 是 最 大 的 。 
.10 年 期 国债 到 期 收益 率 基 本 都 在 3% 以 上 ， 在 4% 左 右上 下 波动 ， 受 利率 调控 影响 明显 。 
. 1 年 期 国债 的 到 期 收益 率 在 1% 一 4% 上 下 波动 ， 受 货币 市 场 短 期 流动 性 影响 明显 。 

接 下 来 ， 对 数据 进行 量化 ， 用 数据 分 析 的 方法 计算 出 指标 ， 来 验证 直观 的 判断 。 


比如 ， 计 算 3 条 收益 率 曲线 的 标准 化 差 ， 以 衡量 波动 性 。 


# 计算 标准 差 

> apply (bonds[,-1],2,s9d) 

ytml ytm3 ytml10 
0.7291878 0.6523377 0.5888107 


1.91 


0.0- 1 1 I I 1 
2002 2004 2000 2008 2010 


Index 
图 5-4 ”国债 期 收益 率 对 比 
从 计算 结果 来 看 ，1 年 期 到 期 收益 率 的 标准 差 是 0.729， 是 最 大 的 ， 而 10 年 期 的 到 期 收益 率 的 标准 差 是 0.588， 是 最 小 的 。 
接 下 来 ， 我 们 再 按 年 来 划分 ， 分 别 计算 3 条 收益 率 曲线 的 标准 差 。 


# 按 年 分 组 ， 标 准 差 
> sdy<-apply.yearly (bondsxts, function (cols) apply(cols,2,sd));sdy 


ytml ytm3 ytml10 
2002-12-31 0.24506549 0.19079566 0.33013846 
2003-12-31 0.41372346 0.31208564 0.31722444 
2004-12-31 0.47182531 0.43472113 0.55582216 
2005-12-31 0.54615193 0.56419153 0.65071361 
2006-12-31 0.19039665 0.17720776 0.11174525 
2007-12-29 0.56432016 0.54567296 0.55400302 
2008-12-31 0.67966696 0.75470889 0.56060732 
2009=12=31 0.27320510. 0:39522147 0.25356530 
2010-12-31 0.42360918 0.32081918 0.22876109 
2011-12-31 0.38883385 0.26012716 0.17028720 
2012-12-31 0.25408047 0.22746152 0.09955422 
2013-12-31 0.49976235 0.49377643 0.38454713 
2014-12-31 0.26920789 0.25424162 0.31266992 
2015-12-31 0.43946060 0.19512158 0.21551456 
2016-12-31 0.16860824 0.14493450 0.12929623 
2017-02-17 0.08070615 0.05674466 0.10786616 


2012 


2014 


2016 


然后 ， 我 们 找到 标准 差 变 动 最 大 的 ， 看 看 是 哪 年 ? 


# 最 大 值 


> apply (sdy, 2,max) 


ytml 


ytm3 


ytml10 


0.6796670 0.7547089 0.6507136 


# 
> 


最 大 值 出 现 的 时 间 
sdy[unique (apply (sdy,2,which.max) ),] 
ytml ytm3 ytml10 


2005-12=31 0.5461519 0.5641915 .0.6507136 
2=31 


2008-] 


0.6796670 0.7547089 0.5606073 


1 年 期 国债 和 3 年 期 国债 的 最 大 变动 值 ， 都 超过 了 10 年 期 国债 ， 在 2008 年 时 波动 最 大 。 而 10 年 期 国债 在 2005 年 波动 最 大 。 


2005 年 发 生 了 什么 ”2008 年 又 发 生 了 什么 ”回忆 当时 国家 经 济 情况 ， 也 许 我 们 就 能 明白 了 。 


我 们 换 一 个 角度 再 看 ， 以 年 为 周期 ， 看 一 下 10 年 国债 收益 率 的 情况 。 


# 
> 


> 
> 
> 
> 


# 
> 


十 十 十 


VvVvVvVvvVvVvVvVvVvVVv 本 


加 载 类 库 
library (lubridate) 
library (reshape2) 


整理 数据 

ytm<-bondsxts$ytm10['2010/'] # 取 从 2010 年 开始 的 数据 
years<-unique (year (index (ytm) ) ) 
df<-data.frame (matrix (NA, ncol=length (years) ,nrow=366)) 
names (df) <-years 


按 年 分 组 

apply.yearly (ytm, function (x) { 
ycol<-format (index (x), '%$Y') [1] 

df[lyday (x) , ycol |] <<-x 


}) 


整理 数据 
df<-cbind (igd=1:366,df) 
dt<-na.omit (melt (df, id.vars="id")) 


# 画图 

g<-ggplot (aes (x=id, y=value, colour=variable),data=dt) 
g<-gtgeom line (size=1) 
9 
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<-g+xlab('Day of Year') 


图 5-5 中 ，x 轴 代表 一 年 中 的 365 天 ，y 轴 代表 收益 率 的 值 。 图 中 可 以 明显 的 发 现 ，2015 年 下 半年 收益 率 开始 下 行 ， 这 与 2015 年 降息 有 很 大 关系 。 从 2017 年 开始 ， 收 益 率 开始 上 行 ， 预 示 着 央行 可 能 要 开 
始 加 息 了 。 


虽然 感觉 国债 离 我 们 有 点 远 ， 但 了 解 国债 是 非常 有 用 的 。 基 于 国债 还 有 很 多 的 玩法 。 在 2013 年 ， 中 国 金 融 期 货 交 易 所 推出 的 国债 期 货 ， 让 国债 交易 义 有 了 新 的 玩法 。 国 债 与 国债 期 贷 的 套利 ， 正 是 相同 
标的 的 金融 产品 ， 由 于 市 场 不 同 导 致 定价 不 同 ， 不 断 会 有 套利 机 会 出 现 。 如 何 进行 套利 ， 请 参考 本 书 6.3 节 的 内 容 。 另 外 ， 相 比 交 易 所 的 国债 市 场 ， 银 行 间 的 国债 市 场 要 大 得 多 。 也 曾 有 新 闻 报道 说 有 可 能 


放 银 行 间 市 场 ， 市 场 一 旦 开放 出 来 ， 又 会 有 很 多 的 交易 机 会 等 着 我 们 去 发 现 。 
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图 5-5 ”10 年 国债 到 期 收益 率 环比 


我 们 在 了 解 国债 市 场 的 同时 ， 也 需要 思考 国家 的 政治 、 经 济 、 国 际 关 系 等 多 方 的 宏观 因素 ， 从 而 把 握 住 机 会 。 


Se 


企业 债 和 企业 债 套利 | 
问题 


如 何 进行 企业 债 投 资 ? 


企业 债 和 企业 债 套利 


http://blog.fens.me/finance-enterprise-bond/ 


责 ， 是 金融 体系 中 一 个 重要 的 组 成 部 分 。 近 40 年 来 的 经 济 危 机 都 是 债 造成 的 ， 比 如 1980 年 的 拉美 债务 危机 、1997 年 的 东南 亚 经 济 危 机 、2007 年 的 次 贷 危 机 、2009 年 的 欧 债 危机 。 


如 何 认识 企业 债 ， 在 金融 市 场 中 找到 交易 机 会 是 本 节 讨 论 的 重点 内 容 。 


企业 债 (Enterprise bond) 是 由 中 央 政 府 部 门 所 属 机 构 、 国 有 独资 企业 或 国有 控股 企业 发 行 的 债券 。 企 业 债 是 从 事 生 产 、 贸 易 、 运 输 等 经 济 活动 的 企业 发 行 的 债券 。 在 西方 国家 ， 由 于 只 有 股份 公司 才 
能 发 行 企业 债券 ， 所 以 在 西方 国家 企业 债券 即 公司 债券 。 在 中 国 ， 企 业 债券 泛 指 各 种 所 有 制 企业 发 行 的 债券 。 


1) 按期 限 划 分 : 企业 债券 有 短期 企业 债券 、 中 期 企业 债券 和 长 期 企业 债券 。 根 据 我 国企 业 债券 的 期 限 划 分 ， 短 期 企业 债券 期 限 在 1 年 以 内 ， 中 期 企业 债券 期 限 在 1 年 以 上 5 年 以 内 ， 长 期 企业 债券 期 限 在 
5 年 以 上 。 


2) 按 可 否 提前 赎 回 划分 : 企业 债券 可 分 为 可 提前 赎 回 债券 和 不 可 提前 赎 回 债券 。 如 果 企业 在 债券 到 期 前 有 权 定 期 或 随时 购 回 全 部 或 部 分 债券 ， 这 种 债券 就 称 为 可 提前 赎 回 企业 债券 ， 反 之 则 是 不 可 提前 
赎 回 企业 债券 。 


3) 按 票面 利率 是 否 变动 划分 : 企业 债券 可 分 为 固定 利率 债券 、 浮 动 利 率 债券 和 昧 进 利率 债券 。 固 定 利率 债券 指 在 偿还 期 内 利率 固定 不 变 的 债券 ; 浮动 利率 债券 指 票面 利率 随 市 场 利率 定期 变动 的 债券 ， 
宗 进 利率 债券 指 随 着 债券 期 限 的 增加 ， 利 率 累进 的 债券 。 


4) 按 投资 者 是 否 给 予 选 择 权 划 分 : 企业 债券 可 分 为 附 有 选择 权 的 企业 债券 和 不 附 有 选择 权 的 企业 债券 。 附 有 选择 权 的 企业 债券 ， 指 债券 发 行人 给 予 债券 持 有 人 一 定 的 选择 权 ， 如 可 转换 公司 债券 、 有 认 
股权 证 的 企业 债券 、 可 返还 企业 债券 等 。 可 转换 公司 债券 的 持 有 者 ， 能 够 在 一 定时 间 内 按照 规定 的 价格 将 债券 转换 成 企业 发 行 的 股票 ， 有 认 股 权证 的 债券 持 有 者 ， 可 和 凭 认 股 权证 购买 所 约定 的 公司 的 股票 ; 
可 返还 的 企业 债券 在 规定 的 期 限 内 可 以 退还 。 反 之 ， 债 券 持 有 人 没有 上 述 选择 权 的 债券 ， 即 是 不 附 有 选择 权 的 企业 债券 。 


5) 按 发 行 方式 划分 : 企业 债券 可 分 为 公募 债券 和 私募 债券 。 公 莫 债 券 指 按 法 定 手续 经 证 券 主 管 部 门 批准 公开 向 社会 投资 者 发 行 的 债券 ;私募 债 券 指 以 特定 的 少数 投资 者 为 对 象 发 行 的 债券 ， 发 行 手续 简 
单 ， 一 般 不 能 公开 上 市 交易 。 


2. 发 行 条 件 

" 发 债 前 连续 三 年 到 利 ， 所 筹资 金 用 途 符合 国家 产业 政策 。 

" 累计 债券 余额 不 超过 公司 净 资 产 额 的 40%， 最 近 三 年 企业 债 发 行 定向 宽松 ， 保 障 房 债券 逆 势 放量 年 平均 可 分 配 利润 足以 支付 公司 债券 一 年 的 利息 。 
* 发 债 用 于 技 改 项 目的 ， 发 行 总 额 不 得 超过 其 投资 总 额 的 30%， 用 于 基建 项 目的 不 超过 20%。 

` 取得 公司 董事 会 或 市 国资 委 同 意 申 请 发 行 债券 的 决定 。 


债券 期 限 一 般 为 5 年 以 上 ， 以 10 年 和 20 年 居多 ， 付 息 方 式 为 一 年 一 次 。 发 行规 模 不 超过 净 资 产 的 40%， 不 超过 项 目 投资 总 额 的 30%， 不 低 于 10 亿 元 。 发 行 对 象 主 要 为 境内 机 构 (国家 法 律 、 法 规 禁止 购 
买 者 除外 ) 。 


从 市 场 上 找 一 些 在 售 的 企业 债 ， 以 列表 展示 ， 如 图 5-6 如 示 。 


代码 名 称 剩余 年 限 。 最 新 净 价 成 交 重 (万 ) ”最 新 YTM 张 跌 帧 主体 评级 。 时 间 
1080031 ”10 红 合 城 投 债 0.05 100.1573 1420.00 -0.99% 02/17 
加 南昌 城 投 债 100.3694 
10 渝 交通 债 . 99.9309 
07 永 煤 债 [ 100.3866 
10 洽 江北 嘴 债 100.4516 
加 东城 发 情 101.6339 
1 伴音 中 公投 俩 101.9165 
13 金 杯 盐 化 债 101.1969 
12 示 胜 人 情 50.0000 
作 二 门 峡 债 102.7000 
11 泰 矿 债 | 99.4000 
12 喜 城 情 50.8054 
全 抚顺 城 投 小 向 . 100.8407 
12 兴 化 债 51.1145 
人 2 淮安 水 利 债 62.5000 
12 郑 新 债 106.4433 
12 渝 李渡 债 . 103.7753 
12 芜 湖 建 投 债 02 101.7402 
人 2 融 唱 俩 92.2202 
12 仪 征 债 62.1797 
亿 北 京 建 工 俩 60.9293 
亿 毕 节 信 素 债 61.8742 
16 兴 素 小 微 情 01 99 .6390 
人 12 港 航 债 102 .1513 
亿 昆 明 产 投 俩 61.4795 


图 5-6 市场 上 的 企业 债 ， 截 图 来 自 于 Wind 
从 发 债 的 名 称 就 可 以 基本 看 出 投资 的 目的 ， 都 是 以 地 方 建设 的 重大 项 目 为 主 。 债 券 以 政府 信用 担保 ， 信 用 评级 最 低 也 是 A+。 到 期 收益 率 为 3.5% ~ 8.3%， 比 起 上 一 节 讲 的 国债 和 储蓄 来 说 ， 具 有 更 大 的 
吸引 力 。 


5.2.2 ”什么 是 公司 债 ? 


公司 债 (Corporate bond) 是 由 股份 有 限 公司 或 有 限 责任 公司 发 行 的 债券 ， 证 券 法 对 此 做 出 了 明确 规定 ， 因 此 ， 非 公司 制 企业 不 得 发 行 公司 债 券 。 


公司 债 是 由 上 市 公司 依照 法 定 程序 发 行 ， 约 定 在 一 年 以 上 期 限 内 还 本 付 息 的 有 价 证 券 ， 是 由 证 监 会 监管 的 中 长 期 直接 融资 品种 。 公 司 债 承诺 于 指定 到 期 日 向 债权 人 无 条 件 支付 票面 金额 ， 并 于 固定 期 间 
按期 依据 约定 利率 支付 利息 。 公 司 债 券 是 公司 外 部 融资 的 一 种 重要 手段 ， 是 企业 融资 的 重要 来 源 ， 同 时 也 是 金融 市 场 上 的 重要 金融 工具 之 一 。 


公司 债 是 公司 根据 经 营运 作 具 体 需要 所 发 行 的 债券 ， 主 要 用 途 包括 固定 资产 投资 、 技 术 更 新 改造 、 改 善 公司 资 金 来 源 结构 、 调 整 公司 资产 结构 、 降 低 公司 财务 成 本 、 支 持 公司 并 购 和 资产 重组 等 。 


公司 债 发 行 债券 的 公司 和 债券 投资 者 之 间 的 债权 债务 关系 ， 公 司 债券 的 持 有 人 是 公司 的 债权 人 ， 而 不 是 公司 的 所 有 者 ， 这 是 与 股票 持 有 者 最 大 的 不 同 点 ， 债 券 持 有 人 有 按 约定 条 件 向 公司 取得 利息 和 到 
期 收回 本 金 的 权利 ， 取 得 利息 优先 于 股东 分 红 ， 公 司 破 产 清算 时 ， 也 优 于 股东 而 收回 本 金 。 但 债券 持 有 者 不 能 参与 公司 的 经 营 、 管 理 等 各 项 活动 。 


1. 发 行 条 件 


债券 发 行 的 条 件 指 ， 债 券 发 行者 发 行 债券 筹集 资金 时 所 必须 考虑 的 有 关 因 素 ， 主 要 包括 拟 发 行 债券 数量 、 发 行 价格 、 偿 还 期 限 、 票 面 利率 、 利 息 支付 方式 、 有 无 担保 等 ， 债 券 的 发 行 条 件 决定 着 债券 的 
收益 性 、 流 动 性 和 安全 性 ， 直 接 影响 着 发 行者 筹资 成 本 的 高 低 和 投资 者 投资 收益 的 多 专 。 由 于 公司 债券 通常 是 以 发 行 条 件 进 行 分 类 的 ， 所 以 ， 确 定 发 行 条 件 的 同时 也 就 确定 了 所 发 行 债券 的 种 类 。 


2. 风 险 因素 

公司 债 的 风险 因素 主要 包括 以 下 几 种 : 

1) 利率 风险 : 利率 是 影响 债券 价格 的 重要 因素 之 一 ， 当 利率 提高 时 ， 债 券 的 价格 就 降低 ， 此 时 便 存 在 风险 。 债 券 剩余 期 限 越 长 ， 利 率 风险 越 大 。 
2) 流动 性 风险 : 流动 性 差 的 债券 使 得 投资 者 在 短期 内 无 法 以 合理 的 价格 卖 掉 债券 ， 从 而 遭受 降低 损失 或 丧失 新 的 投资 机 会 。 

3) 信用 风险 : 是 指 发 行 债券 的 公司 不 能 按时 支付 债券 利息 或 偿还 本 金 ， 从 而 给 债券 投资 者 带 来 损失 。 


4) 再 投资 风险 : 购买 短期 债券 而 没有 购买 长 期 债券 ， 会 有 再 投资 风险 。 例 如 ， 长 期 债券 利率 为 10%， 短 期 债券 利率 8%， 为 减少 利率 风险 而 购买 短期 债券 。 但 在 短期 债券 到 期 收回 现金 时 ， 如 果 利率 降 
低 到 5%， 就 不 容易 找到 高 于 5% 的 投资 机 会 ， 还 不 如 当期 投资 于 长 期 债券 ， 仍 可 以 获得 10% 的 收益 ， 表 投资 风险 还 是 一 个 利率 风险 问题 。 


5) 回 售 性 风险 : 具体 到 有 回 售 条 款 的 债券 ， 因 为 公司 债 常常 有 强制 收回 的 可 能 ， 而 这 种 可 能 又 常常 是 市 场 利 率 下 降 、 投 资 者 按 券 面 上 的 名 义 利率 收取 实际 增 额 利息 的 时 候 ， 投 资 者 的 预期 收益 就 会 遭受 
损失 ， 这 就 叫 回 售 性 风险 。 


6) 通货 膨胀 风险 : 是 指 由 于 通货 膨胀 而 使 货币 购买 力 下 降 的 风险 。 通 货 膨胀 期 间 ， 投 资 者 实际 利率 应 该 是 票面 利率 扣除 通货 膨胀 座 。 若 债券 利率 为 7%， 通 货 膨胀 率 为 3%， 则 实际 的 收益 率 只 有 4%， 
购买 力 风险 是 债券 投资 中 最 常 出 现 的 一 种 风险 。 


从 市 场 上 找 一 些 在 售 的 公司 债 ， 以 列表 展示 ， 如 图 5-7 如 示 。 


从 公司 债 的 名 称 中 ， 我 们 基本 能 看 确实 是 哪 家 上 公司 公司 发 的 债 ， 比 如 苏宁 债 (112196) 就 是 苏宁 云 商 (002024) 发 行 的 公司 债 。 公 司 债 的 信用 评价 会 比 企业 债 更 低 ， 最 低能 到 BBB-。 当 然 风险 大 
了 ， 收 益 也 会 更 高 。 有 些 公司 债 在 到 期 收益 率 在 10% 以 上 ， 普 遍 也 都 有 8% 左 右 。 


代码 
112220 
112235 
122071 
122329 
112048 
112204 
112142 
112196 
122328 
112231 
112215 
122143 
122310 
122080 
112107 
122046 
136769 
112243 
122028 
112441 
112030 
122267 
122337 
122049 


- 业 


名 称 


14 福 星 01 
15 福 星 01 
11 海 航 02 
14 伊 素 01 
11 凯 过 债 
人 14 好 想 情 
12 格 林 债 
13 苏 于 债 
12 开 深 02 
14 人 金贵 债 
14 万 马 01 
12 亿 利 01 
13 攻 新 城 
1 康美 债 
12 云 内 债 


10 中 铁 G2 


16 欣 捷 01 
合 示 旭 债 


09 华 发 债 


16 凯 由 01 
11 鲁 西 债 
13 永 泰 债 
13 狐 村 02 
10 营 口 港 
16 水 素 01 


犁 | 余年 限 


2.92 
2.92 
4.26 
2.64 
1.75 
2.18 
3.84 
2.73 
3.60 


2.42 


2.42 
a9 
EL 
2.94 
2.66 


0.65 
2.55 
1.38 
1.46 
2.72 
103 


图 5-7 市 场 上 的 公司 债 ， 


最 新 疤 价 


105.0990 
105.0000 
104.8500 
104.6500 
104.5000 
104.4000 
103.9000 
103.1000 
103.1000 
103.0000 
102.6800 
102.5600 
102.3500 
102.3000 
102.0500 
102.0000 
102.0000 
102.0000 
101.9000 
101.8800 
101.8300 
101.8000 
101.7900 

017900 


成 交 量 (万 ) 


20.90 
4.30 
179.70 
2039.00 
413.50 
447.90 
376.20 
1.60 
?7.00 
5.00 
40.00 
3.10 
2384.30 
2101.00 
1300.50 
5000.00 
0.60 


2.00 


截图 来 自 于 Wind 


最 新 YTM 
9.4134 
5.595476 
4.8611 
4.9616 
5.6101 
6.1997 
5.3406 
4.3905 
5.3151 
.03 
9.8079 
6.3239 
76556 
4.1268 
4.4214 
4.1191 
6.1366 
5.2982 
4.3397 
5.2617 
4.7034 
9.9073 
4.7626 
4.0794 


DJ 


张 跌幅 


-0.10% 
-0.94% 
0.14% 
0.00% 
0.00% 
0.01% 
-0.02% 
-0.39% 
0.00% 
0.87% 
-0.07% 
0.05% 
0.05% 
-0.14% 
-1.40% 
2.05% 
0.00% 
027% 
1.77% 
0.08% 
-O001% 
0.00% 
-00.21% 
UU 


主体 评级 


二 了 > 
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5.2.3 ”企业 债 和 公司 债 的 区 别 


企业 债 募集 资金 的 用 途 主要 限制 在 固定 资产 投资 和 技术 革新 改造 方面 ， 并 与 政府 部 门 的 审批 项 目 直 接 相关 。 


在 市 场 经济 环 境 中 ， 公 司 债 的 信用 来 源 是 发 债 公司 的 资产 质量 、 经 营 状况 、 盈 利水 平和 持续 一 利 能 力 等 。 我 国企 业 债券 的 信用 ， 来 源 于 国有 企业 通过 政府 信用 作为 背书 ， 而 且 通 过 行政 强制 落实 担保 机 
制 ， 实 际 信用 级 别 与 其 他 政府 债券 大 同 小 异 。 


根据 证 券 法 规定 ， 股 份 有 限 公司 、 有 限 责任 公司 发 债 额度 的 最 低 限 大 致 为 1200 万 元 和 2400 万 元 。 但 是 ， 按 照 企业 债券 的 内 控 指 标 ， 每 只 企业 债券 的 发 债 数额 大 多 不 低 于 10 亿 元 ， 因 此 债 企业 只 能 集中 于 
少数 大 型 企业 。 


在 市 场 经 济 中 ， 公 司 债 监管 机 构 往往 严格 要 求 债券 的 信用 评级 和 发 债主 体 的 信息 披露 ， 特 别 重视 发 债 后 的 市 场 监管 工作 。 但 我 国企 业 债 发 行 中 ， 发 债 由 国家 上 发改委 和 国务 院 审批 ， 要 求 银行 予以 担保 。 
债券 发 行 后 ， 审 批 部 门 则 不 再 对 发 债主 体 的 信息 披露 和 市 场 行为 进行 监管 。 企 业 债 的 发 行 受到 行政 机 制 的 严格 控制 ， 每 年 的 发 行 额 远 低 于 国债 、 央 行 票据 和 金融 债券 ， 也 明显 低 于 股票 的 融资 额 。 


企业 债 和 公司 债主 要 区 别 ， 在 于 发 行 主体 不 同 ， 资 金 用 途 不 同 ， 信 用 基础 不 同 ， 管 制程 序 不 同 ， 市 场 功能 不 同 ， 法 律 依据 不 同 ， 发 行 条 件 不 同 ， 发 行程 序 不 同等 诸多 方面 。 
5.2.4 ”企业 债 统计 分 析 

下 面 我 们 对 企业 债 数据 做 一 些 统计 分 析 ， 看 看 是 否 能 找到 一 些 企业 债 的 交易 规律 。 

本 文 所 使 用 的 系统 环境 : 

* Win1064bit 


* R: 3.2.3 x86_64-w64-mingew32/x64 b4bit 


整理 企业 债 数据 保存 为 CSV 文 件 ， 便 于 R 语 言 进行 读 取 。 保 存 上 海 证 券 交 易 所 发 行 的 企业 债 数据 ， 为 sh_bond.csv， 保 存 深 证 证 券 交 易 所 发 行 的 企业 债 数 据 为 ，sz_bond.csv。 数 据 收集 的 时 间 为 2013 
年 12 月 30 日 。 


数据 格式 如 下 : 


2013 年 吴忠 市 城乡 建设 投资 开发 有 限 公 司 公 司 债券 , 124369,13 吴 城 投 ,1380303,13 吴 忠 城 投 债 ，2020-10-12 
2011 年 宜昌 市 城市 建设 投资 开发 有 限 公司 市 政 项 目 建设 债券 , 122766, 11 宜 建 投 ,1180162, 11 宜 昌 城 投 债 ，2019-11-17 
2013 年 重庆 市 双 福建 设 开 发 有 限 公司 公司 债券 , 124400, 13 渝 双 福 ， 1380285， 13 渝 双 福 债 , 2020-10-23 

2013 年 平凉 市 投资 > 展 公 司 企 业 俩 券 ， 124352,13 平 凉 债 , 1380279， 13 下 六 从 42 020-09-17 

2012 年 营口 港务 集团 有 限 公 \ 司 公司 债券 ， 124053,12 营 口 港 , 1280391, 12 营 ,2020-11-13 

2013 年 天 津 市 静海 城市 基础 设施 建设 投资 集团 有 限 公司 公司 债券 ， 124437， ee 


数据 一 共 6 列 : 
.名称 
` 代码 
“ 银行 间 代 码 
“ 银行 间 简 称 
到 期 日 期 
用 R 语 言 读 入 数据 ， 做 一 些 数据 分 析 。 


# 加 载 类 库 
library (ggplot2) 
library (scales) 


# 上 交 所 企业 债 
> sh<-read. aore lf ile="sh bond.csv",header=FALSE, sep=",",ColClasses = "character",f ileEncoding="utf-8", encoding = "utf-8") 
> names (sh) <- cl ("名 称 m "代码 "， "简称 "， "银行 | 旧 代 码 ""， "银行 间 简 称 ", "到 期 期 ") 
> sh$ 到 期 日 期 <-as. Da (sh$ 到 其 期 , format="%$Y-Sm-%d") 
# 深交 所 企业 债 
> sz<-read. table (f ile=" Sz bond.csv",header=FALSE, sep=", ", ColClasses = "character",f ileEncoding="utf-8", encoding = "utf-8") 
> names (sz) <-— cl( ("名 称 m "代码"， "简称 "， "银行 | 间 代 码 "， "银行 间 简称 " "到 期 期 ") 
> sz$ 到 期 日 期 <-as. Dos (szs 到 期 期 ,format="%Y-%m-%d") 
# 合并 所 有 未 到 期 的 企业 债券 
> ss<-rbind (sh, sz) 
# 打印 数据 
> head (ss) 
名 称 代码 简称 ” 银行 间 代 码 银行 间 简 称 “到 期 日 期 
1 2013 年 吴忠 市 城乡 建设 投资 开发 .. 124369 13 吴 城 投 1380303 13 吴 忠 城 投 债 2020-10-12 
2 2011 年 宜昌 市 城市 建设 投资 开发 .. 122766 11 宜 建 投 1180162 11 宣 昌 城 投 债 2019-11-17 
3 2013 年 重庆 市 双 福 建设 开发 有 限 ... 124400 13 渝 双 福 1380285 ”13 渝 双 福 债 2020-10-23 
4 2013 年 平凉 市 投资 发 展 公司 企业 ... 124352 13 平 凉 债 1380279 13 平 凉 债 2020-09-17 
5 2012 年 营口 港务 集团 有 限 公司 公 ... 124053 12 营 口 港 128039] 12 营 口 港 2020-11-13 
6 2013 年 天 津 市 静海 城市 基础 设施 .. 124437 13 津 静海 1380368 ”13 津 静海 债 2020-11-26 


接 下 来 ， 利 用 基本 的 债券 数据 ， 我 们 开始 做 一 些 对 债券 市 场 的 研究 分 析 。 


首先 ， 计 算 最 近 到 期 的 前 10 支 债券 。 


> tmp<-ss [order (ss$ 到 期 日 期 ) ,] 
> head (tmpl[,c(2,3,6)1,10) 
代码 简称 到 期 期 
959 111022 04 首 旅 债 2014-02-19 
678 122985 09 浙 能 债 2014-02-23 
689 120483 04 中 石化 2014-02-24 
110 122979 09 津 投 2 2014-03-25 
690 120482 04 通 用 债 2014-03-31 
82 ” 122970 09 三 峡 01 2014-04-08 
91 122960 09 保 利 集 2014 
691 122998 长 债 暂停 2014-05-26 
4 
4 


104 122947 09 合 建 投 201 
285 122943 09 外 高 桥 201 


由 于 数据 采集 的 时 间 是 在 2013 年 12 月 30 日 ， 那 么 最 近 到 期 的 债券 是 在 2014 年 02 月 19 日 ， 还 有 2 个 月 的 时 间 。 


把 所 有 债券 按 到 期 时 间 进 行 统计 ， 并 以 柱状 图 形式 输出 到 期 日 期 分 布 ， 如 图 5-8 所 示 。 


g<-ggplot (ss，aes (x= 到 期 日 期 ) ) 

g<-gtgeom histogram(binwigdth=50,position="identity") 

g<-gtscale x date(breaks = date breaks (width="1 year"),1labels = date format ("%Y"), limits = c(as.Date("2014-01-01"),as.Date ("2024-01-01"))) 
g<-g+xlab ("到 期 日 期 ") +ylab (" 债 券 数 量 ") 
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图 5-8 中 ，2014 年 到 期 的 债券 并 不 多 ， 从 2018 年 到 2020 年 ， 会 有 大 批 的 债券 到 期 ， 这 几 年 到 3 


责 压 力 ， 同 时 银行 也 承担 着 极 大 的 风险 ， 一 旦 出 现 违约 事情 ， 后 果 将 不 堪 设 


接 下 来 ， 我 们 再 计算 最 近 付 息 的 前 30 文 债券 。 


> ss$ 付 息 日 期 <-as .Date (paste (2014, format (ss$ 到 期 日 期 , format="'-%m-%d')，,sep="")) 
> tmp<-ss [order (ss$ 付 息 es 
> head (tmpl[,c(2,3,6,7)] 


代码 简称 到 期 其 付 息 

40 122841 11 渝 津 债 2018-01-06 2014-01-06 
257 122842 11 合 城 债 2018-01-06 2014-01-06 
509 122756 12 甘 农垦 2019-01-06 2014-01-06 
975 111047 08 长 兴 债 2016-01-06 2014-01-06 
766 123007 11 微 矿 债 2021-01-07 2014-01-07 
866 124110 13 宁 新 开 2020-01-08 2014-01-08 
541 124103 13 同 创 债 2020-01-09 2014-01-09 
542 124139 13 通 港 闻 2020-01-09 2014-01-09 
547 124112 13 豫 盛 润 2019-01-10 2014-01-10 
548 124157 13 盘 高 新 2020-01-10 2014-01-10 
549 124131 13 安 国资 2020-01-10 2014-01-10 
27 124135 13 滇 公投 2019-01-11 2014-01-] 

338 122849 11 新 余 债 2018-01-11 2014-01- 

451 124134 13 泉 城 投 2020-01-11 2014-01- 

555 124136 13 太 城 投 2020-01-11 2014-01- 

770 122749 12 石 油 02 2022-01-11 2014-01-11 
771 122748 12 石 油 01 2019-01-11 2014-01-11 
337 122844 11 筑 城 投 2018-01-12 2014-01-12 
439 122855 11 渝 轻 纺 2018-01-12 2014-01-12 
720 122617 12 襄 投 债 2019-01-12 2014-01-12 
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图 5-8 企业 的 到 期 日 期 分 布 
对 所 有 债券 按 付 息 日 期 进行 统计 ， 并 以 柱状 图 形式 输出 付 息 日 期 分 布 ， 如 图 5-9 所 示 。 


# 付 息 日 期 分 布 

g<-ggplot (ss，aes (x= 付 息 日 期 )) 

g<-gtgeom histogram(binwidth=1,position="identity") 

g<-gt+scale x date (breaks=date breaks ("1 month"),labels = date format ("$Y%m"), limits = c(as.Date("2014-01-01"),as.Date ("2014-12-31"))) 
g<-g+xlab (" 付 息 日 期 ")+ylab ("债券 数量 ") 
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图 5-9 ”企业 的 付 息 日 期 分 布 


从 付 息 的 分 析 情 况 来 看 ， 每 月 都 是 比较 平稳 的 ，2014 年 的 11 月 略 多 于 其 他 月 份 。 


5.2.5 ”企业 债 举例 


我 们 随便 找 一 只 企业 债 进行 举例 ， 看 一 下 企业 债 的 哪些 指标 ， 应 该 是 我 们 需要 知道 的 。 以 11 华 锐 01 (122115) 为 例 ， 查 看 这 家 企业 的 公开 信息 ， 如 表 5-2 所 示 。 


表 5-2 11 华 锐 01 (122115) 的 公开 信息 


字段 明细 


债券 名 称 华 锐 风电 科技 (集团 ) 股份 有 限 公 司 2011 年 公司 债券 (第 一 期 ) 
俩 养 简称 11 华 锐 01 
俩 其 代码 122115 
责 券 形式 实名 制 记 账 式 
信用 评级 AA+ 
债券 面额 (元 ) 100.00 
贡 凑 期 限 〈 年 ) 5 
俩 其 利率 〈% ) 6 
计 息 方式 固定 利率 
付 上 县 方式 每 年 付 县 一 次 
发 行 总 额 (元 ) 950000000.00 
发 行 价格 (元) 100 
发 行 日 2011-12.27 
上 市 日 2012-01-18 
兄 付 日 每 年 的 12 月 27 日 (节假日 顺延 ) 
(组 ) 
字段 明细 
摘牌 日 2016-12-27 
一 级 托管 中 国 证 券 登 记 结算 有 限 责 任 公司 上 海 分 公司 
二 级 托管 瑞 银 证 券 有 限 贡 任 公 司 ， 安 信 证 券 股 份 有 限 公 司 ， 齐鲁 证 券 有 限 公司 
承销 方式 余额 包销 
主 承 销 商 珊 银 证 券 有 限 员 任 公 司 ， 安 信 证 券 股 份 有 限 公 司 ， 齐鲁 证 券 有 限 公 司 
上 市 推荐 人 瑞 银 证 券 有 限 贡 任 公司 
上 市 交易 所 上 海 证 券 交 易 所 


这 支 债券 最 近 一 次 付 息 是 在 2013 年 12 月 27 日 。 票 面 利率 为 6.0%， 债 权 登 记 日 为 2013 年 12 月 26 日 ,债券 付 息 日 为 2013 年 12 月 27 日 。 


由 于 付 息 时 ， 国 家 会 征收 利息 的 20% 作 为 利息 税 。 所 以 很 多 持 债 大 户 都 会 在 债权 登记 日 之 前 把 债券 卖 出 ， 等 付 息 日 后 再 买 回来 从 而 避税 。 债 券 一 般 情况 下 交易 量 都 是 不 活路 的， 而 在 付 息 日 之 前 ， 由 于 
有 避税 的 操作 ， 可 能 会 引起 交易 量 的 活跃 。 那 么 我 们 看 看 付 息 日 之 前 的 几 日 的 债券 交易 量 是 否 会 有 明显 的 变化 。 


从 图 5-10 中 可 以 看 出 ，11 华 锐 01 (122115) 在 2013 年 12 月 27 日 付 息 日 之 前 的 几 日 ， 交 易 量 就 已 经 开始 有 所 上 升 ， 而 付 息 日 当日 ， 交 易 量 是 最 大 的 ， 说 明 大 家 都 在 做 避税 后 再 买 入 的 操作 。 


2016/12/26 收 99.950 帆 0.00%u(0.000) 里 9 开 99.950 高 99.950 低 99.950 
122115.SH [11 华 锐 Q1] 日 续 China Bond:99.9924 2013/09/23-2013/12/31{(67B}Y 晤 
1 


2013-12-27 


. 


lt rn, 
DT 


图 5-10 11 华 锐 01 债 的 开 线 图 


5.2.6 ”企业 债 交 易 操 作 


一 般 我 们 交易 债券 会 有 2 种 交易 行为 ， 一 种 是 持 有 到 期 获得 利息 ， 另 一 种 是 不 持 有 到 期 ， 低 价 买 高 价 卖 ,， 和 炒股 类 似 。 

举 个 例子 来 说 明 ， 持 有 到 期 的 操作 ， 获 得 利息 后 卖 出 。 

1) 假设 A 以 90 元 (结算 价 全 价 ) 买 入 11 华 锐 01 (122115) 100 张 ， 交 易 金额 90x100=9000 元 。 

2) 人 A 一 直 持 有 11 华 锐 01 (122115) 到 债券 的 付 息 日 ，2013 年 12 月 27 日 付 息 日 获得 利息 收入 ， 所 得 利息 =1001006%=600 元 ， 净 收入 = 所 得 利息 -利息 税 =600x (1-20%) =480 元 。 
3) 2013 年 12 月 28 日 ， 以 91 元 卖 出 ， 净 收入 = (结算 价 -成 本 价 ) 数量 = (91-90) 100=100 元 。 

4) 最 终 获 得 净 收 入 =480+100=580 元 

另外 一 种 情况 ， 如 果 发 现 债券 价格 很 低 ， 可 以 择 时 低 价 买 入 ， 再 等 价格 上 涨 时 卖 出 债券 。 

1) 假设 B 以 90 元 (结算 价 全 价 ) 买 入 11 华 锐 01 (122115) 100 张 ， 交 易 金 额 90x100=9000 元 。 

2) 2013 年 12 月 27 日 ， 以 90 元 卖 出 ， 付 息 日 应 计 利息 6%， 净 收入 = (结算 价 -成 本 价 ) 数量 = ( (交易 价 + 应 计 利息 ) -成 本 价 ) 数量 = (90+6-90) x100=600 元 。 
3) 最 终 获得 净 收 入 =600 元 

比较 上 面 的 两 种 操作 ， 以 高 价 卖 出 债券 比 持 有 到 期 获得 利息 有 更 高 的 收益 。 


那么 为 什么 我 们 要 低 买 高 卖 债券 呢 ? 这 是 因为 债券 发 价格 是 100 元 ， 债 券 期 满 时 价格 一 定 会 回归 到 100 元 。 所 以 ， 如 果 债 券 上 市 过 程 中 ， 当 价格 过 低 时 ， 比 如 到 了 80 元 以 下 了 ， 那 么 我 们 就 可 以 低 价 买 
， 坐 等 上 涨 。 
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图 5-11 11 华 锐 01 债 的 完整 价格 走势 


11 华 锐 01 债 ， 在 2013 年 时 跌 到 80 元 以 下 ， 到 了 2016 年 结算 之 日 ， 价 格 回归 到 了 100 元 。 如 果 我 们 抓 住 机 会 ， 在 80 元 时 候 买 进 ， 持 有 4 年 到 2016 年 结算 日 。 那 么 我 们 所 获得 的 收益 ， 每 年 票面 利息 696， 
再 加 25% 的 价格 收益 ， 就 是 一 个 相当 不 错 的 低 风 险 的 回报 了 。 


每 个 月 都 有 不 少 到 期 或 者 付 息 企业 债券 ， 如 果 我 们 能 把 握 好 时 间 窗 口 ， 靠 企业 债 也 能 获得 不 错 的 收益 率 。 让 资金 利用 有 更 低 的 风险 ， 更 高 的 收益 ! 


5.3 ”可 转 债 套利 实践 


问题 


如 何 进行 可 转 债 套利 ? 


用 IT 技术 玩 金融 系列 文章 


可 转 债 是 一 个 经 常 被 大 家 忽略 的 金融 产品 ， 可 转 债 兼 具 股 性 与 债 性 ， 价 格 在 100 元 附近 时 债 性 显著 ， 当 价格 超过 110 元 后 股 性 显著 ， 且 股 性 部 分 的 期 权 价 值 相对 标的 股票 价格 呈 非 线性 波动 ， 因 此 可 以 利 
用 可 转 债 的 这 一 特性 构造 套利 组 合 


在 中 国 市 场 ， 可 转 债 是 T+0 人 交易 ， 并 且 没 有 涨 跌停 的 限制 ， 所 以 可 转 债 比 股票 有 更 多 的 可 操作 性 。 当 对 应 股票 的 价格 上 涨 ， 超 过 了 可 转 债 的 价格 时 ， 就 可 以 用 债 转 股 ， 再 卖 出 股票 实现 套利 了 。 在 海外 
成 熟 市 场 ， 可 转 债 套利 策略 被 广泛 运用 。 


5.3.1 可 转 债 介 


可 转 债 即 可 转换 债券 ， 是 债券 的 一 种 ， 它 可 以 转换 为 债券 发 行 公司 的 股票 ， 通 常 具有 较 低 的 票面 利率 。 从 本 质 上 讲 ， 可 转换 债券 是 在 发 行 公司 债券 的 基础 上 ， 附 加 了 一 份 期 权 ， 并 人 允许 购买 人 在 规定 的 
时 间 范 围 内 将 其 购买 的 债券 转换 成 指定 公司 的 股票 。 


可 转换 债券 具有 债权 和 期 权 的 双重 特性 ， 主 要 有 以 下 三 个 特点 : 


债权 性 : 可 转换 债券 与 其 他 债券 一 样 ， 可 转换 债券 也 有 规定 的 利率 和 期 限 ， 投 资 者 可 以 选择 持 有 债券 到 期 ， 收 取 本 息 。 


“ 股权 性 : 可 转换 债券 在 转换 成 股票 之 前 是 纯粹 的 债券 ， 但 在 转换 成 股票 之 后 ， 原 债券 持 有 人 就 由 债券 人 变 成 了 公司 的 股东 ， 可 参与 企业 的 经 营 决策 和 红利 分 配 ， 这 在 一 定 程度 上 会 影响 公司 的 股本 结 
构 。 
* 可 转换 性 : 可 转换 性 是 可 转换 债券 的 重要 标志 ， 债 券 持 有 人 可 以 按 约定 的 条 件 将 债券 转换 成 股票 。 转 股权 是 投资 者 享有 的 、 债券 所 没有 的 选择 权 。 可 转换 债券 在 发 行 时 就 明确 约定 ， 债 券 持 有 人 


可 按照 发 行 时 约定 的 价格 将 债券 转换 成 公司 的 普通 股票 。 如 果 债 券 持 有 人 不 想 转换 ， 则 可 以 继续 持 有 债券 ， 直 到 偿还 期 满 时 收取 本 金 和 利息 ， 或 者 在 流通 市 场 出 售 变现 。 


下 面 我 们 查看 一 下 ， 目 前 交易 的 可 转 债 列表 。 


代码 名 称 ” 剩 余年 限 最 新 净 价 ”成 交 量 (万 ) ”最 新 YTM 涨 跌幅 主体 评级 时 间 
128013. 


] 8013.Sz 洪涛 转 债 ”5.4356 106.9062 354.25 0563 0.0011 AA 17/02/20 
2 ” 128012.Sz 辉 丰 转 债 ”5.1644 104.7008 330.20 0.4997 0.0002 17/02/20 
3 128011.S2 汽 模 转 债 5.0274 119.6913 29.80 -1.5675 0.0015 AA- 17/02/20 
4 128010.Sz 顺 昌 转 债 4.9205 120.7805 843.31 -1.3974 0.0063 AA 17/02/20 
5 128009.Sz 歌 尔 转 债 3.8082 125.1955 2558.56 -2.9275 0.0031 AA+ 17/02/20 
6 127003.Sz 海 印 转 债 5.2959 110.2466 104.57 0.8402 0.0018 AA- 17/02/20 
7 123001.Sz 蓝 标 转 债 4.8247 107.5723 480.79 1.0215 0.0010 AA 17/02/20 
8 113010.SH 江南 转 债 5.0712 113.3905 400.00 -0.1011 0.0033 AA 17/02/20 
9 113009.SH 广汽 转 债 4.9205 118.8289 28761.60 -1.4984 0.0159 AAA 17/02/20 
10 113008.SH 电气 转 债 3.9507 0.0000 0.00 0.0000 0.0000 AAA 17/02/20 
11 110035.SH 和 白云 转 债 4.0164 125.8927 1007.00 -3.6463 0.0128 AAA 17/02/20 
12 110034.SH 九州 转 债 4.9014 123.7595 1513.30 -2.1554 0.0009 AA+ 17/02/20 
13 110033.SH 国贸 转 债 4.8740 115.3756 1455.00 -0.5405 0.0094 AA+ 17/02/20 
14 110032.SH 三 一 转 债 4.8712 113.7342 4422.10 -0.5943 0.0073 AA 17/02/20 
15 110031 .SH 航 信和 转 债 4.3068 106.7421 935.60 0.9607 0.0008 AA+ 17/02/20 
16 110030.SH 格力 转 债 ”2.8438 112.341] 439.10 -1.2792 -0.0009 AA 17/02/20 
债券 要 素 


. 有 效 期 限 和 转换 期 限 : 转 债 期 限 一 般 不 超过 6 年 ， 多 为 5 年 。 可 转 债 有 规定 的 有 效 期 限 和 转换 期 限 ， 比 如 格力 转 债 〈110030) ， 上 市 场 日 期 为 2015 年 1 月 13 日 ， 摘 牌 日 期 为 2019 年 12 月 25 日 。 进 行 转 股 的 
时 间 为 2015-06-30 至 2019-12-24， 刚 发 行 的 前 半年 是 不 能 转 股 的 。 


票 利率 或 股息 率 : 票面 利率 通常 按 年 递增 ， 但 低 于 同等 期 限 相同 等 级 的 公司 债券 。 格 力 转 债 《110030) 票面 利率 : 第 一 年 为 0.60%、 第 二 年 为 0.80%、 第 三 年 为 1.00%、 第 四 年 为 1.50%、 第 五 年 为 
2.00%。 每 年 付 息 一 次 ， 下 一 次 付 息 日 是 2017 年 12 月 25 日 。 当 前 为 第 三 年 ， 剩 余年 限 2.84 年 ， 当 期 的 票面 利率 是 1.0%。 


* 转 债 纯 债 价 值 : 与 企业 债 类 似 ， 计 算 本 金 和 票 息 收入 之 和 ， 按 一 定 贴 现 率 得 到 的 当期 价值 。 
债 溢价 率 : 是 指 转 债 市 场 价格 相对 纯 债 价值 的 比例 ， 转 债 纯 债 溢价 率 越 低 ， 其 市 场 价 格 越 接近 纯 债 价值 。 
“ 转 债 转 股价 值 : 是 指 转 债 按 比例 转换 为 公司 股票 后 的 市 值 ， 转 换 比 例 计 算 方 式 为 100/ 转 股价 格 ， 转 股价 格 即 转 债 转换 为 每 股 股票 所 需 支 付 的 对 价 


. 转 股 溢价 率 : 是 转 债 市 场 价格 相对 转 股价 值 的 比例 。 转 债 转 股 溢 价 率 越 低 ， 其 市 场 价格 越 接 近 转 股价 值 ， 转 债 越 近似 于 相应 正 股 。 当 转 股 洪 价 率 为 负 时 ， 转 债 投资 者 可 通过 ， 先 把 债 转 股 再 卖 债 进行 
套利 。 转 股 溢价 率 ， 是 我 们 所 重点 要 关注 的 指标 。 


“ 转 股价 格调 整 : 由 于 市 场 变 化 ， 为 防止 大 规模 套利 发 生 ， 转 股价 格 有 2 种 情况 会 被 调整 。 一 种 是 当 公 司 发 生 送 红 股 、 转 正 股本 、 增 发 新 股 、 配 股 ， 以 及 派发 现金 股利 等 情况 时 ， 相 应 地 会 调整 转 股价 
格 。 另 一 种 是 转 债 的 修正 条 款 ， 指 当 正 股 收盘 价 连续 多 个 交易 日 低 于 当期 转 股 价格 的 菜 个 百分比 时 ， 公 司 董事 会 有 权 提 出 转 股价 格 向 下 修正 方案 。 


赎 回 条 款 : 赎 回 是 指 可 转 债 在 发 行 一 段 时 间 后 ， 由 于 公司 经 营 良 好 不 需要 发 俩 了 ， 提 前 赎 回 未 到 期 的 发 行 在 外 的 可 转换 公司 债券 。 赎 回 条 件 一 般 是 当 公 司 股 票 在 一 段 时 间 内 连续 高 于 转换 价格 并 达到 
定 幅 度 时 ， 公 司 可 按照 事先 约定 的 赎 回 价格 买 回 发 行 在 外 尚未 转 股 的 可 转换 公司 债券 。 


: 回信 条 款 : 回 售 是 指 公 司 股 票 在 一 段 时 间 内 ， 连 续 低 于 转换 价格 达到 某 一 幅度 时 ， 投 资 人 可 以 按 事 先 约定 的 价格 ， 将 所 持 可 转换 债券 卖 给 发 行人 ， 从 而 保护 投资 人 的 利益 


资 价 值 : 可 转换 债券 可 以 使 投资 者 获得 最 低 收益 权 ， 可 转换 债券 当期 收益 较 普通 股 红利 高 ， 可 转换 债券 比 股票 有 优先 偿还 的 要 求 权 。 


5.3.2 ”可 转 债 操作 


在 市 场 的 震荡 起 伏 中 ， 可 转 债 的 涨 跌 并 不 与 正 股 完全 同步 ， 这 样 就 使 得 可 转 债 的 转 股价 值 可 能 高 于 转 债 市 价 ， 存 在 一 定 的 套利 空间 。 对 于 可 转 债 的 投资 策略 ， 可 以 从 2 个 方面 入 手 ， 一 种 是 参与 新 的 可 转 
债 发 行 ， 打 新 债 ; 另 一 种 是 在 可 转 债 上 市 后 的 投资 分 析 ， 包 括 转 债 议价 率 的 套利 分 析 ， 以 及 接近 回 售 条 件 或 者 修正 转 股价 时 的 事件 套利 分 析 等 


可 转 债 交易 的 业务 规则 : 

. 可 转 债 : 交易 是 T+0 的 ， 可 以 进行 当日 回转 交易 ， 即 当日 买 入 的 债券 可 在 当日 卖 出 。 

. 交易 单位 : 手 〈1 手 王 1000 元 面值 ) 。 

` 计价 单位 : 每 百 元 面值 债券 的 价格 。 

价格 变动 单位 : 0.01 元 。 

笔 申 报 限 制 : 最 低 申报 限额 为 1 手 ， 最 高 申报 限额 为 10000 手 。 

. 申报 价格 限制 按照 交易 规则 的 规定 执行 

* 转 股 规 定 : 当日 买 入 可 转 债 券 当日 就 可 以 转 股 ， 可 转 债 在 I 日 申请 转 股 后 ，T+1 日 开盘 前 可 获得 股票 ， 盘 中 将 所 转换 的 股票 卖 出 。 
` 手续 费 : 转 股 不 收取 费用 ， 交 易 成 本 主要 来 自 可 转 债 和 股票 的 买卖 交易 费用 。 
可 转 债 市 场 中 存在 两 个 显著 的 现象 : 

当 一 些 可 转 债 正 股 股价 低迷 ， 在 快要 满足 回信 条 件 时 ， 正 股价 往往 被 一 种 “神秘 力量 ” 拉 起 ， 上 涨 到 脱离 回信 条 件 的 区 域 。 

. 可 转 债 转 股 价 修 正 完 之 后 其 正 股 一 般 会 随 着 股市 反弹 。 所 以 ， 当 可 转 债 接 近 回 信条 件 或 者 修正 转 股 价 时 均 有 可 能 出 现 短暂 的 投资 机 会 


大 家 可 以 从 市 场 中 用 数据 来 验证 一 下 以 上 的 规律 。 


5.3.3” 负 溢价 率 套利 策略 


接 下 来 ， 我 们 对 可 转 债 进行 量化 研究 ， 操 作 过 程 是 从 基本 的 统计 规则 开始 ， 再 到 套利 实战 。 
本 文 所 使 用 的 系统 环境 : 

+ Win1064bit 

* R: 3.2.3 x86_64-w64-mingw32/x64 b4bit 

1. 获 取 数 据 


首先 ， 我们 可 以 从 互联 网 上 来 抓 一 些 数据 ， 找 到 雪 球 网 站 的 可 转 债 页 面 ， 发 现 数据 是 通过 Ajax 的 方式 传输 ， 以 JSON 的 形式 进行 存储 的 ， 那 么 我 们 可 以 直接 肥 取 该 JSON 数 据 。 
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代码 
SH113009 


SZ127003 
SZ128013 
SH110030 
SZ123001 
SH110032 


SZ128012 


Network Timeline 


搜索 股票 讨论 用 户 策 合 翌 组 Q 
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Security ”Audits 
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正 股价 正 股 涨 跌幅 


+3.99% 


+0.84% 


+1.19% 


+0.51% 


+0.30% 


+0.27% 


+0.41% 


Vv 


注册 登录 


每 页 显示 : 30 60 90 


手动 刷新 ”图 20 秒 自动 刷新 可 转 债 计算 公式 


转 股 价 ” 转 股 价值 ”溢价 率 (%) 


4 症 人 


5.26 


10.28 


7.26 


15.25 


7.46 


i 


税 前 收益 (%) ” 税 必 


121.06 -0.71 -1.50 


91.06 21.90 -0.10 


74.22 44.70 1.06 


80.72 39.71 -2.07 


64.79 66.55 1.02 


98.12 16.17 -0.59 


62.52 68.37 0.50 


Vv {count: {count: 57}, sucCcess: 
Pp count: {count: 57} 


数据 的 URL 地 址 : 


: "SH1138689", 
: "SZ127663"， 
: "S7128013", 
: "SH119639"， 
: "S7123681", 
: "SH110932", 


: "SZ1289012", 
: "SH1189034", 


先 以 手动 的 方式 下 载 。 对 于 如 何 用 程序 爬 带 验证 的 网 页 数据 ， 之 后 再 单独 介绍 


下 载 的 数据 格式 为 JSON， 保 存 该 文件 到 cb.json 文 件 中 ， 数 据 如 下 : 


"benef it after tax" : "-0.0188", 

"benef it | before tax" : "-0.015", 

"change" : "1.86", 

"code™ : "113009", 

"convert bond ratio™ : "0.03"， 

"convertrate™ : "0.78", 

"oUtrent 8.877， 

"nasexist" : "false" 

"hiogh™ » "M19.06", 

"migho2w™ » "128.4", 

"interestrtmemo" : "第 一 年 为 0.2%、 第 二 年 为 0.5$、 第 三 年 为 1.0g%、 
"kzz Convert Price"”: "21.75"， 

"kzz convert time" : "2016. 07.22=2022;01 .21™ 
"kzz covert Value" : "116.41", 

"R22 CB 2: WO 02LL™, 


"true”", stocks: 


code: 
Code: 
code: 
code: 
code: 
code: 
code: 
code: 


第 四 年 为 1 .5%、 


"113669"， 
"127693"， 
"128613"， 
"119639" ， 
"123661"， 
"119632"， 
"128612"， 
"119634"， 


[,-]} 


:“" 广 汽 转 债 "， 
: “ 海 印 转 债 "， 
: “ 凌 涛 转 债 "， 
: “格力 转 债 "， 
:“" 蓝 标 转 债 "， 


"三 一 转 债 "， 


: " 葡 丰 转 债 "， 
本人 


图 5-12 雪 球 的 可 转 债 页 


第 五 年 为 1 .5%、 


第 六 年 为 1.6%"， 


pettm: 
pettm: 
pettm: 
pettm: 
pettm: 
pettm: 
pettm: 
pettm: 


(https://xuediu.com/stock/cata/stocklist.json?page=1&size=90&order=desc&orderby=percent&exchange=CN&industry= 可 转 债 ) 


// 省 略 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 


: "223883"， 
: "54623", 
: "9929", 

: "3528", 

: "13566", 
: "16729”， 
: "21839", 
-er 


JSON 数 据 


"false” ,~} 
"false”" ,..} 
"false™ ,.} 
"false™" ,~} 

"false”" ,..} 
hasexist: "false",..} 
hasexist: "false",..} 
"false”" ,..} 


hasexist: 
hasexist: 
hasexist: 
hasexist: 
hasexist: 


hasexist: 


， 因 为 需要 验证 用 户 名 和 密码 ， 我 们 


接 下 来 ， 通 过 


十 R 语 言 来 处 理 这 个 JSON 数 据 ， 把 它 变 成 我 们 所 熟悉 的 R 语 言 中 的 数据 格式 data.frame。 那 么 ， 


篇 》1.6 节 的 内 容 


可 以 用 rjson 包 来 执行 转换 操作 ， 如 果 你 还 


不 熟悉 rjson 包 ， 可 以 参考 《R 的 极 客 理想 一 一 工具 


> library (rjson) 


# 读 入 json 数 据 
> 


fromJSON (paste (readLines ("cb.json"), collapse="")) 


JSon <= 


# ry 
> 


# 对 列 重 命名 
2 


names (df 


<— da 


SON 为 data. 


frame 


# 查看 数据 ， 前 2 行 
> 


) <-names (json [[1]]) 


ta.frame (matrix (unlist (json), nrow=length (json), 


byrow=TRU] 


FE), stringsAsFactors = FALSE) 


ore tax 


head (df, 2) 
symbol Code name pettm volume hasexist marketcapital current percent change high 
1 SH113009 113009 广汽 转 债 287616 false 0.0 118;87 1959 1.86 119.06 
2 SH110035 110035 白云 转 债 10070 false 0.0 126.09 1.28 1.59 126.1 
Jow - 0 open kzz stock symbol kzz stock name kzz stock current 
1 117.0 128. .8 117.01] SH601238 广汽 集团 25.32 
2 124.5 135. 0 on 3 124.5 SH600004 ”白云 机 场 14.73 
kzZz convert price kzz covert Value kzz cpr kzz putback price kzz convert time 
1 21373 116.41 0.0211 100.0 2016.07.22-2022.01.21 
2 12.56 117.28 0.0751 103.0 2016.09.05-2021.02;235 
kzz redempt price kzz straight price kzz stock percent pb net assets benef it bef 
1 106.0 S717. 3.79 6.6775 -0.015 
2 106.0 92.16 2 全 59 9.2473 -0.0364 
benef it _ after tax convert bond ratio totalissuescale outstandingamt maturitydate remain year 
下 -0.0188 0.03 4.10558E9 407021.9 20220122 4.923 


2 


-0.0403 日 .2 


convertrate 


1 0.78 第 一 年 为 0.2%、 第 二 年 为 0.5%、 
2 0.82 本 次 可 转 债 票面 利率 为 : 第 一 年 0 .2%、 


这 个 数据 集 一 共有 37 列 ， 对 应 的 列 名 为 : 


转 债 代码 : symbol 


"代码: code 


"名称: name 


动态 市 盈 率 : pettm 


ze 
“ 区 男 量 : volume 


A 


三 年 为 1 .0%、 第 四 年 为 1 .5$、 第 五 年 为 1 .5%、 
第 二 年 0.4%、 第 三 年 1 .0$、 第 


bE 


2753589 349919.0 


" 是 否 操 作 : hasexist， 雪 球 网 站 自己 定义 的 功能 


:当前 价 : current 
“ 涨 跌幅 : Percent 

最 高 价 : high 

最 代价 : low 

52 周 最 高 价 : high52w 


52 周 最 低 价 : low52w 


“ 开盘 价 : open 


“ 正 股 代码 : kzz_stock_symbol 


: 正 股 简 


称 : kzz_stock_name 


. 正 股 价 : kzz_stock_current 


` 正 股 涨 跌幅 : kzz_stock_percent 


“ 转 股 价 : kzz_convert_price 


20210226 4.019 
interestrtmemo 
第 六 年 为 1 . 6% 


四 年 1.2%、 第 五 年 1 .5% 


“ 转 股 价值 : kzz_covett_value， 衍 生 指 标 ， 转 股价 值 = 正 股 现价 / 转 股 价 *100 


- 溢价 率 〈%) 


: kzz_cpt， 衍 生 指 标 ， 溢 价 率 = ( 转 债 现价 - 转 股价 值 ) / 转 股价 值 


. 回 售 触 发 价 : kzz_putback_price， 慕 集 说 明 书 约定 的 连续 N 日 低 于 转 股价 的 X% 可 提前 回 售 ， 回 售 触发 价 = 当 期 转 股价 +*Xo%h 


. 转 股 期 间 : kzz_convert_time 


“ 纯 债 价值 : kz2z_sttaight_btice 


\ 和 名 > 各 总 
. 正 股 净 资 


` 税 前 收益 (%) 


` 税 后 


: net_ assets 


: benefit before_ tax 


收益 (%) 


: benefit after_ tax 


` 正 股市 净 率 : pb 


` 转 债 占 比 (%) 


: convert bond_ tratio 


.到 期 赎 回 价格 : kzz_redempt_price 


. 转 债 规模 ( 亿 ) : totalissuescale 
. 剩余 规模 〈 亿 ) : outstandingamt 
“ 到 期 时 间 : maturitydate 

. 剩余 年 限 : remain_year 


' 标准 券 折 算 率 : convetttate， 衍 生 指 标 ， 标 准 券 折算 率 = 中 登 公布 的 标准 券 折 草率 / 转 债 现价 


. 具体 利率 : 


intetestttmetmo 


2 .数据 清洗 和 过 滤 


接 下 来 ， 对 数据 进行 处 理 。 在 JSON 格 式 中 ， 所 存储 的 数据 都 是 字符 串 类 型 ， 为 了 后 面 的 数值 计算 ， 我 们 需要 把 字符 型 的 数据 变 成 数字 型 。 


-VV 


UO 


0035™” "10033" 


"SH113009™ "SH110035" "SH110033" "SH110032" http://www.hzcourse.com/resource/readBook?path=/openresources/ 


"110032" http://www.hzcourse.com/resource/readi 


"广汽 转 债 " "白云 转 债 " "国贸 
' http://www.hzcourse.com/resource/readl 
ttp://www.hzcourse.com/resource/read] 


页 = 


0070™ "m14550™ "44221™ hi 


查看 数据 的 类 型 ， 都 是 字符 串 类 型 的 

str (df) 
ata.frame': 57 obs. of 37 variables: 
symbol : Chr 

code Che VLI13009™ "1] 
name > "HE 

pettm : chr TTTTY wr Trorr 1TTTY 
volume :Che V287616" "1 
hasexist : chr "false™ 7 


Book?path=/openresources/teach ebook/uncompressed/17222/0F 


teach ebook/uncompressed/17222/0E 


i 


ey 


ee 


转 债 " http://www.hzcourse.com/resource/readl 
Book?path=/openresources/teach ebook/uncompressed/17222/01 
Book?path=/openresources/teach ebook/ 


局 s 前 | SE™ wfal SE™ "fal se" htt 


Book?path=/openresources/teach ebook/uncompressed/17222/0E 


EBPS/Text/... 


tp://www.hzcourse.com/resource/read] 


Book?path=/openresources/teach ebook/ 


uncompressed/17222/0E 


7 


uncompressed/17222/0E 


BPS/Text 
BPS/Text/.. 


'BPS/Text/... 
BPS/Text/... 


Ee 


BPS/Text/.. 


marketcapital 
Current 
percenit 


open 


#5 ww 
刻 
9 
三 


: Chr "0.0" "0.0" "0.0" "0.0" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 

: chr "118.87" "126.09" "115.44" "113.8" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 

: chr "1.59" "1.28" "0.94" "0.73" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 

: chr "1.86" "1.59" "1.08" "0.83" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 

: Chr "119.06" "126.1" "115.6" "114.0" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 

: chr "117.0" "124.5" "114.35" "112.96" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 

: chr "128.4" "135.0" "131.5" "119.2" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 

: chr "112.8" "121.3" "109.9" "105.93" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompresseq/17222/OEBPSVText/... 
chr "117.01" "124.5"” "114.35" "112.96" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 


省 略 nttp://www. hzeourse， CormV/resource/read 


Book?path=/openresources/teach ebook/uncompressed/17222/0E 


BPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/’ 


# 把 字符 串 型 转 为 数字 型 
> df$volume<-as.numeric (df$volume) 
> df$current<-as.numeric (df$current) 
> df$change<-as.numeric (df$change) 
> df$percent<-as.numeric (df$percent) 
> df$shigh<-as.numeric (df$high) 
> df$low<-as.numeric (df$1ow) 
> df$high52w<-as.numeric (df$high52w) 
> df$low52w<-as .numeric (df$1ow52w) 
> df$open<-as.numeric (df$open) 
> df$kzz stock current<-as.numeric(df$kzz stock current) 
> df$kzz convert Price<-as .numeric (df$kzz convert price) 
> df$kzz covert value<-as.numeric (df$kzz covert value) 
> df$kzz cpr<-as.numeric (df$kzz cpr) 
> df$kzz putback Price<-as .numeric (df$kzz putback price) 
> df$kzz redempt price<-as.numeric (df$kzz redempt price) 
> df$kzz straight price<-as.numeric(df$kzz straight price) 
> df$kzz stock percent<-as.numeric (df$kzz Stock percent) 
> df$pb<-as.numeric (df$pb) 
> dfsnet assets<-as .numeric (df$net assets) 
> df$benef it before tax<-as.numeric (df$benef it before tax) 
> df$benef it after tax<-as .numeric (df$benef it after tax) 
> df$convert bond ratio<-as .numeric (df$convert bond ratio) 
> df$totalissuescale<-as.numeric (df$totalissuescale) 
> df$outstandingamt<-as.numeric (df$outstandingamt) 
> df$remain year<-as .numeric (QfSremain year) 
> df$convertrate<-as.numeric (df$convertrate) 
0 
> str(gdf 
i 57 Obs of 37 variables: 
$ symbol chr "SH113009" "SH110035" "SH110033" "SH110032" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/.. 
$ code chr "113009™ "110035" "110033" "110032" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 
$ name : chr "广汽 转 债 " "白云 转 债 " "国贸 转 债 " "三 一 转 债 " http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 
$ pettm : Chr "MW MW MW WW nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 
$ volume num 287616 10070 14550 44221 84331 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 
$ hasexist chr “false" "false" "false" "false" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 
$ marketcapital chr "0.0" "0.0" "0.0" "0.0" http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/O0EBPS/Text/... 
$ current num 119 126 115 114 121 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/.. 
$ percent num .59 1.28 0.94 0.73 0.63 0.33 0.31 0.18 0.15 0.11 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ' ebook/incompressed/17222/0EBPS/T 
$ change num .86 1.59 1.08 0.83 0.755 0.37 0.39 0.2 0.179 0.114 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompresseq/17222/OEBPS 
$ high num 119 126 116 114 121 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 
$ low num 117 124 114 113 120 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 
$ high52w num 128 135 132 119 159 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 
$ low52w num 113 121 110 106 114 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/... 
# 省略 http://www. hzcourse. com/resource/readBook?path=/openresources/teach ebook/uncompressed/17222/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/ 


3. 负 溢价 率 套利 策略 


我 们 是 要 做 的 是 负 溢价 率 套利 策略 ， 要 先 找 到 处 于 转 股 期 的 可 转 债 


# 加 载 工具 包 
> library (stringr) 
> library (magrittr) 
# 连续 数据 变换 
> df2<-df[,c('kzz convert time')] 
> dfE2 ge str _ split (pattern="'— ') $%$>% 
+ unlist %>% matrix(ncol=2, byrow=TRUE) %>% 
十 data.frame (stringsAsFactors=FALSE) %$>% 
+ cbind(df$symbol,df$name) 
# 设置 今天 日 期 
> today<-Sys.Date() ;today 
[1] "2017-02-21" 
# 找到 处 于 转 股 期 的 可 转 债 
> df2 %<>% { 
十 df2$xX1<-as.Date (qf2SX1, format="%Y. Sm.%$d') 
十 Qft2SX2<-as .Date (df2$X2, format="%Y. Sm.%$d') 
+ df2[intersect (which (df2$X1 < today),which(d 
ea 
X1 X2 df$symbol df$name 
2016-07-22 2022-01-21 ”SH113009 广汽 转 债 
2 2016-09-05 2021-02-25 SH110035 白云 转 债 
3 2016-07-05 2022-01-04 SH110033 国贸 转 债 
4 2016-07-04 2022-01-03 SH110032 三 一 转 债 
5 2016-07-29 2022-01-21 SZzZ128010 顺 昌 转 债 
6 2016-09-26 2022-03-17 SH113010 江南 转 债 
7 2015-06-19 2020-12-11 SZz128009 歌 尔 转 债 
8 2016-12-16 2022-06-07 SZ127003 海 印 转 债 
9 2016-09-09 2022-03-02 ”Sz128011 汽 模 转 债 
10 2017-02-06 2022-07-28 SZ128013 洪涛 转 债 
11 2016-06-27 2021-12-17 Sz123001 蓝 标 转 债 
12 2016-07-21 2022-01-14 ”SH110034 九州 转 债 
13 2015-12-14 2021-06-11 SH110031 航 信和 转 债 
14 2016-10-28 2022-04-21 SZ128012 辉 丰 转 债 
39 2015-08-03 2021-02-01 SH113008 电气 转 债 
57 2015-06-30 2019-12-24 SH110030 格力 转 债 
很 多 时 候 ， 


场 的 观察 方法 。 


通过 实时 的 对 市 场 进行 


我 们 在 观察 市 场 时 ， 都 会 有 自己 独特 的 视角 ， 个 性 的 数据 需求 非常 重要 ， 但 市 场 工具 基本 都 不 能 满足 ， 只 


扫 摘 ， 


我 会 第 一 时 间 发 现 套利 机 会 


。 下 面 的 代码 主要 会 用 到 2 个 数据 处 理 的 包 stringr 和 magrittr， 如 果 你 还 不 熟 


f2SX2 > today)),] 


能 靠 自己 编程 来 实现 了 。 比 如 如 图 5-13 所 示 的 转 债 转 股 溢价 率 套 利 表 ， 


当 预 期 收益 大 于 3%， 同 时 亏损 概率 少 于 10% 时 ， 果断 入 场 赌 一 把 。 当 然 ， 你 也 可 以 做 更 精细 化 的 量化 标准 ， 把 投机 性 完全 去 掉 。 


悉 它 们 的 用 法 ， 可 以 查看 本 书 3.3 节 和 3.4 节 的 内 容 。 


就 是 我 对 市 


转 债 转 股 溢价 率 套 利 表 


转 债 名 称 更 新 时 间 焉 卖 一 贵 卖 一 量 转 股 溢价 率 (%) 预期 收益 (%) 20 天 波动 率 (%) 已 换 概 率 (%) 
中 易 转 债 (125887) 10:36:43 Ty -1.16 2.52 67.64 
燕 京 转 债 (126729) 10:36:55 | | 1.3 -1.28 1.63 78.43 
工行 转 债 (113002) 10:38:02 , | 0.61 -0.6 0.66 81.94 
重工 转 债 (113003) 10:38:02 | 2.38 -2.32 1.75 90.74 
海 直 转 债 (127001) 10:36:01 : | | -2.74 1.96 91.83 
镍 股 转 债 (110016) 10:37:28 -2.45 98.88 


同仁 转 债 (110022) 10:37:28 : ; : -5.16 . 99.87 


素 尔 转 债 (128001) 10:37:01 -12.29 99.93 
国电 转 债 (110018) 10:38:02 . ' -718 100 
中 行 转 债 (113001) 10:37:37 , | ， -5.51 100 
海运 转 债 (110012) 10:34:51 ; . U -26.08 100 
石化 转 债 (110015) 08:55:00 . | _11.28 100 
深 机 转 债 (125089) 10:35:54 : : -18.12 | 100 


图 5-13 ” 转 债 转 股 溢价 率 套 利 表 


下 面 创建 自己 定义 的 列表 ， 用 于 观察 可 转 债 的 数据 。 


# 创建 自己 定义 的 列表 
> df3<-df[which (df$symbol g%ings df2$‘df$symbol),] 
> df3$name2<-str c(df3$name,' (',df3$code,')') 
> df3$time<-format (Sys .time (), '%H:%M:%S"') 
> df3$current2<-str c(df3$current,'(',df3$percent,')') 
> df3$current3<-str c(df3$kzz stock current,'(',df3$kzz stock percent,')') 
> cols<-c('name2', 'time', 'current2', 'current3','kzz cpr') 
> df4<-d 0 35kzz _ Cpr), cols] 
> names (df4 (' 转 债 名 称 ' 沁 量 新 9 间 1， ' 转 债 价格 (涨幅 )', ' 正 股价 格 (涨幅 )',' 溢 价 率 ') 
> df4 
转 债 名 称 Te 转 债 价 格 (涨幅 ) “ 正 股价 格 (涨幅 ) 溢价 率 
1 广汽 转 债 (113009) 0:31 118.87(1.59) 25.32(3.77) 0.0211 
9 汽 模 转 债 (128011) Ti 120.179(0.15) 6.46(1.89) 0.0734 
2 白云 转 债 (110035) 13:30:3] 126.09 (1.28) 14.73(2.79) 0.0751 
7 歌 尔 转 债 (128009) 13:30:31 25.39(0.31) 29.95(1.91) 0.0982 
12 九州 转 债 (110034) 13:30:3 123.8(0.09) 20.18 (0) 0.1441 
5 顺 昌 转 债 (128010) 13:30:31 120.838 (0.63) 9.88(2.7) 0.1497 
3 国贸 转 俩 (110033) 13:30:3] 15. ot 94) 8.9(2.3) 0.1583 
4 一 转 债 (110032) 13:30:3] 113.8(0.73) 7.3(0.14) 0.1629 
8 海 印 转 债 (127003) 13:30:3] 110.6(0.18) 4.75(1.06) 0.2247 
6 ”江南 转 债 (113010) 13:30:3] 113.67(0.33) 8.1(3.32) 0.3205 
57 格力 转 债 (110030) 13:30:3 112.5(-0.09) 5.83(0.69) 0.4009 
39 电气 转 债 (113008) 13:30:31 114. 0 8.42(0) 0.4439 
10 洪涛 转 债 (128013) 13:30:31 107.133(0.11) 7.54(0.53) 0.4606 
1 葛 标 转 债 (123001) 13:30:3] 107.697(0.1) 9.84(1.13) 0.6691 
4 辉 丰 转 债 (128012) 13:30:31 05.12 (0. 02) 4.85(0.41) 0.6884 
3 航 信和 转 债 (110031) 13:30:3] 07.09(0.08) 20.52(0.15) 1.2467 


我 们 可 以 监控 可 转 债 与 正 股 之 间 的 变化 ， 当 正 股 上 涨 ， 但 可 转 债 没 与 正 股 完全 同步 时 ， 就 存在 套利 空间 。 


那么 ， 除 了 基于 原始 数据 的 基本 指标 ， 我 们 需要 自 定 义 一 些 衍 生 指 标 ， 比 如 预期 收益 率 、 亏 损 概率 、 夏 普 比率 等 指标 。 这 样 我 们 就 可 以 更 直观 地 看 指标 ， 而 不 用 自己 在 脑子 里 做 数字 的 转化 了 ， 大 脑 放 
松 ， 理 性 地 决策 。 


~ 


我 们 需要 再 增加 4 个 衍生 指标 ， 分 别 是 预期 收益 率 、20 天 波动 率 、 亏 损 概 率 、 年 化 夏普 值 。 
我 们 可 以 整理 一 下 4 个 衍生 指标 计算 公式 : 

预期 收益 率 = 〈 转 股价 值 - 转 债 价 格 ) / 转 债 价格 X100% 

20 日 波动 率 = 标 准 差 (20 日 移动 平均 收益 率 ) X 平 方 根 (250) 

亏损 概率 = 正 态 化 的 预期 收益 率 ， 以 0 为 均值 ，20 日 波动 率 为 方差 

年 化 夏普 值 = 预 期 收益 率 /20 上 日 波动 率 义 平方 根 (250) 


我 们 以 格力 转 债 (110030) 为 例 ， 计 算 格力 转 债 (110030) 的 4 个 衍生 指标 。 那 么 要 计算 这 几 个 指标 ， 刚 才 的 数据 显然 是 不 够 的 ， 我 们 需要 再 加 入 一 些 数 据 ， 主 要 是 格力 转 债 (110030) 的 价格 数据 
和 格力 地 产 (600185) 的 价格 数据 。 


把 格力 转 债 (110030) 的 价格 数据 ， 保 存 到 110030.csv 文 件 中 ， 数 据 集 如 下 ， 一 共 13 列 。 


日 期 ， 收 盘 价 ， 涨 跌 ， 涨 跌幅 ， 成 交 量 ( 手 ) ， 成 交 金 额 (万 ) ， 纯 债 YTM， 涨 跌 BP， 转 股价 值 ， 纯 债 价 值 ， 转 股 溢价 率 ， 纯 债 溢价 率 ， 平 底 溢价 率 


2017-02-20,112.5,-0.1,-0.000888099,4391, 494.4315,-1.2792,2.74,80.303003,96.7976, 0.400944,0.162219,-0.170402954 
2017-02=17;112.6;,=0.21,-0..001861537;,7046, 794.8019;=1.3066;6.39, 19,752039;96.62/; 0Q0.41187/i0:165306; -0..174640225 
2017-02-16,112.81,-0.25,-0.002211215, 6555,740.1899,-1.3705,7.59,80.027521,96.58, 0.40964,0.168047,-0.171386198 
20171=02-13,113.06;=0.,.35;=0.003086148;3002; 340',3308;=1,.4464; 10.62,79.88978,96.5201; 0,.415199%,0,1/11362;=0.172299034 


将 格力 地 产 (600185) 的 原始 价格 数据 保存 到 600185.csv 文 件 中 ， 数 据 集 如 下 ， 一 共 7 列 。 


日 期 ， 开 盘 价 ， 最 高 价 ， 最 低 价 ， 收 盘 价 ， 成 交 金 额 (万 ) ， 成 交 量 ( 手 ) 


2017/=02=1075583755877028275584732.677558./300 
2017=02=13,5.84; 5.887%5.83;5.587;32.54j53535300 
2017=02=14; 5.87795.88,5584;5.86723.274051000 
2017=02=15,5.84;5.86;5.7975.8;734.97; 6005000 
2017=02=16,507955.83:5s7875s8L;,29.6;5096700 


提取 格力 转 债 和 格力 地 产 的 数据 ， 进 行 指 标 计算 。 


> library (PerformanceAnalytics) 


# 读 取 格力 转 债 数据 
> qf110030<-readq.csv (f ijle="110030.csv",header=TRUE 


~ 一 


> x110030<-xts (df110030[,c(' 收 盘 价 ',' 转 股价 值 ')],order.by = as.Date(as.character (df110030$ 日 期 ) , format='%Y-%m-%d')) 
> x110030<-na.omit | 
> names (xz110030)<-c('close'y 'value') ”# 保留 收盘 价 ， 转 股价 值 


# 读 取 格力 地 产 数据 

> df600185<-read.csv (f ile="600185-2.csv",header=TRUE) 
> 

> 


x600185<-xts (df600185$close,order.by = as . Date (as .character (dF600185s9ate) ,Format ="'%Y-%m-%$d" ) ) 
names (x600185) <-'stock' # 保留 收盘 价 


# 按 转 债 日 期 ， 合 并 格力 转 债 和 格力 地 产 
> xl110030<-merge (x110030,x600185,all = FALSE 


# 查看 数据 集 
> head (x110030) 

close value stock 
2014-12-25 100.0016 93.44519 19.53 
2014-12-26 100.0033 98.56482 20.60 
2014-12-29 100.0082 105.02416 21.95 
2014-12-30 100.0099 102.15335 21.35 
2014-12-31 100.0115 105.26340 22.00 
2015-01-05 100.0197 105.59833 22.07 


~ 一 


我 们 构造 的 数据 集 包括 3 列 ， 分 别 为 格力 转 债 收盘 价 、 转 股价 值 、 格 力 地 产 收 盘 价 。 由 于 转 股价 格 会 直接 影响 溢价 率 ， 而 转 股价 格 又 是 以 事件 做 为 调整 事情 ， 我 们 需要 在 数据 中 设置 转 股价 字段 。 


转 股价 格 ， 发 生 3 次 改变 
xl110030$convetPrice<-NA 
x110030$convetPrice['2014-12-25']<-20.9 
x110030$convetPrice['2016-05-26']<-7.39 
xl110030$convetPrice['2016-08-25']<-7.26 


# 
> 
> 
> 
> 


# 对 NA 值 进 行 填充 
> x110030<-na.1locf (x110030) 


接 下 来 ， 我 们 计算 衍生 指标 。 


# 转 债 溢价 率 
> x110030$Premium<- (x110030$close-x110030$value) /x110030$value 
# 预期 收益 率 
> x110030$expRet<- (x110030$value-x110030$close) /x110030$close 


# 转 债 价格 累计 收益 率 

> xl110030$ret<-Return.calculate (x110030$close,methogd="10og") 
> xl110030S$ret [which (is.na (x110030$ret))]1<-0 

> x110030$ret<-cumprod (1 + x110030$ret)-— 

# 20 天 波动 率 

> x110030$vol <-volatility (x110030$close,n=20) 

# 亏损 概率 

> x110030$loss<- pnorm(-1 * x1l10030$expRet, 0, xl110030$vol) 
# 年 化 夏普 率 

> x110030$sharpe<-x110030$expRet/x110030$vol*sqrt (250) 


对 所 有 的 比率 字段 *100%: 


比率 *100s% 
x110030$Premium<-x110030$Premium*100 
10030$expRet<-x110030$expRet*100 
10030$ret<-x110030$ret*100 
10030$vol<-x110030$Svol*100 
10030$loss<-x110030$loss*100 


VvVVvVvVvVVy 杯 
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查看 我 们 自 定义 的 数据 计算 结果 ， 数 据 一 共 10 列 ， 包 括 格力 转 债 价格 (close) 、 转 股价 值 (value) 、 格 力 地 产 价 格 (stock) 、 转 股价 格 (convetPrice) 、 溢 价 率 % (Premium) 、 预 期 收益 
率 % (expRet) 、 转 债 收益 率 % (ret) 、20 日 波动 率 % (vol) 、 损 失 概率 % (loss) 、 年 化 夏普 率 % (sharpe) 。 


# 查看 计算 结果 
> tail (x110030) 

close value stock convetPrice Premium expRet ret 
2017-02-13 113.45 80.85397 5.87 1.26 40.31470 -28.73163 -12.24956 
2017-02-14 113.41 80.71623 5.86 7.26 40.50459 -28.82795 -12.28050 
2017-02-15 113.06 79.88978 5.80 7.26 41.51998 -29.33860 -12.55164 
2017-02-16 112.81 80.02752 5.81 7.26 40.96401 -29.05991 -12.74522 
2017-02-17 112.60 79.75204 5.79 7.26 41.18761 -29.17226 -12.90780 
2017=02=20 112,.50 80..30300 -5:.83 7:26 40.09439 =28..61955 =12.98518 

vol loss sharpe 

2017-02-13 7.579765 99.99248 -59.93418 
2017-02-14 7.431161 99.99476 -61.33764 
2017-02-15 7.425625 99.99611 -62.47070 
2017-02-16 7.428001 99.99543 -61.85748 
2017-02-17 3.914910 100.00000 -117.81978 
2017-02-20 3.919023 100.00000 -115.46624 


从 打印 的 最 近 6 日 的 结果 看 ， 格 力 转 债 有 高 达 40% 的 溢价 率 ， 转 债 的 价值 已 经 严重 超过 格力 地 产 的 价值 了 ， 完 全 不 具备 转 股 套利 的 特征 。 我 们 试 试 ， 能 不 能 找到 收益 率 大 于 0 的 期 间 。 


> x110030 [which (x110030S$expRet>0) ，] 


close Value stock convetPrice Premium expRet ret vol 
2014-12-29 100.0082 105.0242 21.95 20.9 -4.776010 5.015554 0.006599760 NA 
2014=12=30 100,0099 102.1533. 21..35 20.9 -2.098262 2.143233 0.008299718 NA 
2014-12-31 100.0115 105.2634 22.00 20.9 -4.989294 5.251296 0.009899680 NA 
2015=01=05 100.0197 100555383 22..07 20.9 -5.282876 5.577530 0.018099213 NA 
loss sharpe 
2014-12-29 NA NA 
2014-12-30 NA NA 
2014-12-31] NA NA 
2015-01-05 NA NA 


Ah 


有 4 条 记录 预期 收益 率 大 于 0， 再 次 查询 转 股 时 间 是 从 2015-06-30 至 2019-12-24， 那 么 这 4 个 机 会 出 现时 ， 表 示 还 没有 开始 进行 转 股 。 从 整个 结果 来 看 格力 转 债 不 适用 负 溢价 率 套利 的 策略 。 


4. 数 据 可 视 化 解读 


接 下 来 ， 我 们 通过 画图 来 解释 数据 ， 这 样 可 能 会 更 清楚 一 些 。 


library (ggplot2) 
library (scales) 


男 溢价 率 图 

g<-ggplot (aes (x=Index, y=Value, colour=Series),data=fortify(x110030[,c('close', 'value','Premium')],melt=TRUE 
g<-gtgeom line (size=1) 
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图 5-14 中 ， 把 格力 转 债 价格 (close) 、 转 股价 值 (value) 和 溢价 率 (Premium) 放 到 一 起 ， 非 常 明显 地 看 出 ， 格 力 转 债 从 刚 发 行 就 被 快速 推 高 ， 溢 价 率 一 直 维 持 在 很 高 的 水 平 ， 这 可 能 是 人 为 的 因素 
妃 速 把 溢价 率 拉平 。 


就 是 想 避 免 转 股 的 发 生 ， 我 查 了 一 下 ， 未 转 股 比例 达到 了 99.80%。 这 么 高 的 溢价 率 ， 如 果 市 场 能 有 上 反 向 操作 ， 做 空转 债 做 多 股票 ， 那 必定 会 大 赚 一 笔 ， 迅 


~ 一 


> g<-ggplot (aes (x=Index, y=Value, colour=Series),data=fortify(xl110030[,c('value', 'stock','convetPrice')],melt=TRUE) 
> g<-gtgeom line (size=1)+scale y 10910() 
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图 5-15” 转 股价 格调 整 


图 5-15 中 ， 把 格力 地 产 价格 (stock) 、 转 股价 格 (convetPrice) 和 溢 转 股价 值 (value) 放 到 一 起 ， 格 力 地 产 在 2016 年 5 月 进行 了 一 次 利润 分 配 及 转 增 股 本 ， 股 价 下 调 ， 同 时 转 股 价格 调整 ， 转 股价 值 
并 没有 发 生变 化 。 


> g<-ggplot (aes (x=Index, y=Value colour=Series),data=fortify(xl110030[,c('expRet', 'ret','vol','loss','sharpe')],melt=TRUE)) 
> g<-gtgeom line (size=1) 
> 9 


2 loss 
100- 
人 | 


Ms kt 


sharpe 


Value 


expRet 


= 


2015-01 2015-07 2016-01 2016-07 2017-01 
Index 


图 5-16 衍生 指标 


图 5-16 中 ， 我 们 把 所 有 衍生 指标 都 放 一 起 ， 发 现 格力 转 债 的 在 2015 年 7 月 波动 率 非常 大 ， 而 进入 2016 年 后 波动 率 变 小 并 趋 于 稳定 。 转 债 价格 收益 率 从 2015 年 07 月 开始 ， 基 本 一 直 在 下 跌 。 转 股 套利 策略 
的 预期 收益 率 也 是 负 的 ， 夏 普 值 也 是 负 的 ,亏损 概率 在 50% ~ 100%。 


综 上 数据 分 析 的 结果 ， 这 只 转 债 看 不 懂 ! 一 定 不 要 碰 了 。 


对 一 支 转 债 整体 分 析 了 一 遍 后 ， 接 下 来 的 事情 就 变 得 简单 了 。 我 们 需要 把 所 有 转 债 的 数据 都 拿 到 ， 用 上 面 的 方法 进行 计算 。 如 果 获 得 的 是 实时 数据 ， 你 就 可 以 对 整个 可 转 债 市 场 做 到 实时 监控 ， 最 后 把 
结果 发 布 到 网 站 上 动态 更 新 ， 再 加 上 短信 、 邮 件 等 的 提醒 功能 ， 恭 喜 你 ! 你 的 自 定 义 可 转 债 交易 监控 系统 就 完成 了 ， 作 为 IT 人 ， 你 还 不 赶紧 开始 动手 赚钱 吗 ! 


5.4 ”金融 无 风险 交易 工具 逆 回 购 


问题 


如 何 进行 逆 回 购 交 易 ? 


2013 年 的 6 月 ， 支 付 宝 推出 的 “余额 宝 ” 赚 尽 了 无 数 人 的 眼球 ， 同 时 也 吸引 了 大 量 小 额 资 金 进 入 。 “余额 宝 ”提高 了 我 们 的 散 钱 利息 年 化 收益 率 达到 了 4.0% 左 右 ， 比 起 银行 活期 存储 存款 利率 0.3% 高 出 
太 多 了 ， 它 撼动 着 银行 “ 躺 着 赚钱 ”的 地 位 。 


在 金融 市 场 ， 如 果 想 获得 年 化 收益 率 4% ~ 5% 也 并 非 难 事 ， 通 过 “ 逆 回 购 ” 一 样 可 以 。 一 旦 遇 到 货币 紧张 时 (银行 缺 钱 ) ， 更 可 达到 50% 一 天 的 隔夜 回 购 利率 。 我 们 就 可 以 美美 地 在 家 里 数 钱 了 1! 


5.4.1 逆 回 购 简 单 介 绍 


回 购 交易 是 质押 贷款 的 一 种 方式 ， 通 常用 在 政府 债券 上 。 债 券 经 纪 人 向 投资 者 临时 出 售 一 定 的 债券 ， 同 时 签约 在 一 定 的 时 间 内 以 稍 高 价格 买 回来 。 债 券 经 纪 人 从 中 取得 资金 再 用 来 投资 ， 而 投资 者 从 价 
格 差 中 得 利 。 回 购 交易 长 的 有 几 个 月 ， 但 通常 情况 下 只 有 24 小 时 ， 是 一 种 超 短 期 的 金融 工具 。 一 般 分 为 国债 回 购 交 易 、 债 券 回 购 交 易 、 证 券 回 购 交易 、 质 押 式 回 购 等 。 回 购 交 易 更 多 地 具有 短期 融资 的 属 
性 ， 从 运作 方式 看 ， 它 结合 了 现货 交易 和 远 期 交易 的 特点 ， 通 常 在 债券 交易 中 运用 。 


国债 回 购 交易 也 称 国债 的 现货 交易 ， 是 指 进行 国债 回 购 交易 的 市 场 ， 即 卖 出 债券 ， 并 附加 条 件 ， 于 一 定期 间 后 ， 以 预定 的 价格 和 收益 ， 由 最 初出 售 者 买 回 债 券 ; 还 包括 买 入 债券 ， 于 一 定期 间 后 ， 以 预 
定 的 条 件 和 价格 ， 再 卖 给 最 初出 售 者 的 反 回 购 。 


质押 式 回 购 是 交易 双方 以 债券 为 权利 质押 所 进行 的 短期 资金 融通 业务 。 在 质押 式 回 购 交 易 中 ， 资 金融 入 方 ( 正 回 购 方 ) 在 将 债券 出 质 给 资金 融 出 方 〈 逆 回 购 方 ) 融入 资金 的 同时 ， 双 方 约定 在 将 来 某 一 
日 期 由 正 回 购 方向 逆 回 购 方 返还 本 金 和 按 约定 回 购 利率 计算 的 利息 ， 逆 回 购 方向 正 回 购 方 返 还 原 出 质 债券 。 


逆 回 购 为 中 国人 民 银 行 向 一 级 交易 商 购 买 有 价 证券 ， 并 约定 在 未 来 特定 日 期 将 有 价 证 券 卖 给 一 级 交易 商 的 交易 行为 ， 逆 回 购 为 央行 向 市 场 上 投放 流动 性 的 操作 ， 逆 回 购 到 期 则 为 央行 从 市 场 收回 流动 性 
的 操作 。 简 单 解释 就 是 主动 借 出 资金 ， 获 取 债券 质押 的 交易 就 称 为 逆 回 购 交 易 ， 此 时 投资 者 就 是 接受 债券 质押 ， 借 出 资金 的 融 出 方 。 


更 通俗 地 讲 ， 就 是 A 把 钱 借 给 B， 到 期 时 B 按 照 约 定 利息 ， 还 给 A 本 资 + 利息 。 逆 回 购 本 身 是 无 风险 的 ， 因 为 以 国债 作为 抵押 物 ， 抵 押 物 的 价值 往往 高 于 借入 资金 。 


逆 回 购 属于 现金 管理 类 的 金融 产品 ， 与 货币 基金 、 余 额 宝 、 银 行 理财 等 现金 类 产品 的 收益 基本 持平 。 


5.4.2， 逆 回 购 的 品种 有 哪些 ? 


逆 回 购 品 种 一 共有 18 种 ， 分 别 对 应 上 海 证 券 交 易 所 的 9 种 和 深圳 证 券 交 易 所 的 9 种 。 上 交 所 的 逆 回 购 ， 属 于 新 质押 式 回 购 ， 资 金门 槛 10 万 元 起 ， 每 笔 交 易 为 10 万 的 整数 倍 ， 分 别 对 应 1 天 、2 天 、3 天 、4 
天 、7 天 、14 天 、28 天 、91 天 、182 天 的 品种 。 深 交 所 的 逆 回 购 属 于 国债 回 购 ， 资 金门 槛 1 干 元 起 ， 每 笔 为 1000 的 整数 倍 ， 分 别 对 应 1 天 、2 天 、3 天 、4 天 、7 天 、14 天 、28 天 、91 天 、182 天 的 品种 ， 如 图 5- 
17 所 示 。 


一 般 我 们 最 常 操作 的 ， 就 是 1 天 和 7 天 的 逆 回 购 。 


举例 说 明 ， 我 们 进行 逆 回 购 操 作 ， 卖 出 上 交 所 发 行 的 上 海 新 质 抵押 式 1 天 逆 回 购 GC001， 回 购 代 码 为 204001， 借 款 时 间 为 1 天 ， 需 要 资金 10 万 元 ， 以 4.685 计 息 ，1 个 自然 天 后 获得 利息 
=100000x4.685%/365=12.83562。 本 金 + 利 息 =100000+12.83562=100012.83562， 再 扣 去 十 万 分 之 一 手续 费 1 元 ， 最 后 到 手 金额 应 该 是 100012.83562-1=100011.83562 元 。 


如 果 我 们 对 上 海 新 质 抵押 式 回 购 GC007 (204007) 进行 操作 ，7 个 自然 天 后 税 后 收益 =100000x3.805%x7/365-5=67.9726 元 。 


债券 回 购 类 型 ] 
上 海 新 质 拥 式 回 购 1 天 204001 
上 海 新 讨 押 式 , 回 购 2 天 \ 204002 
上 海 新 质 拥 式 回 购 3 天 204003 
上 海 新 质押 式 回 购 4 天 204004 
十 海 新 质押 式 回 购 ?7 天 204007 
上 海 新 质押 了 式 回 购 14 天 204014 
上 海 新 庆 押 式 回 购 28 天 204028 
上 海 新 质押 起 回 购 9 天 204091 
上 海 新 质押 式 回 购 182 天 204182 


深圳 国债 回 购 1 天 131810 
深圳 国债 回 购 2 天 131811 
深圳 国情 回 购 3 天 131800 
深圳 国情 回 购 4 天 131809 
深圳 国债 回 购 ? 天 131801 
深圳 国债 回 购 14 天 : 131802 
深圳 国债 回 购 28 天 131803 
深圳 国债 回 购 91 天 131805 
深圳 国债 回 购 192 天 131806 


图 5-17 交易 所 遂 回 购 
此 操作 为 无 风险 操作 ， 完 全 就 是 吃 利息 。 
逆 回 购 参考 的 手续 费 ， 如 表 5-3 所 示 。 


表 5-3 逆 回 购 参 考 手 续费 


代 而 佣金 费 素 每 10 万 元 交易 手续 费 〈 元 ) 


204001 1 天 新 质押 式 回 购 成 交 金额 的 0.001% 1 
204002 2 天 新 质押 式 回 购 成 交 金额 的 0.002% 2 
204003 3 天 新 质押 式 回 购 成 交 金额 的 0.003% 3 
204004 4 天 新 质押 式 回 购 成 交 金 额 的 0.004% 4 
204007 7 天 新 质押 式 回 购 成 交 金 额 的 0.005% 5 
204014 14 天 新 质押 式 回 购 成 交 金额 的 0.010% 10 
204028 28 天 新 质押 式 回 购 成 交 金额 的 0.020% 20 
204091 91 天 新 质押 式 回 购 成 交 金额 的 0.030% 30 
204182 182 天 新 质押 式 回 购 成 交 金 额 的 0.030% 30 


131810 成 交 人 金额 的 0.001% 1 
131811 成 交 人 金额 的 0.002% 2 
131800 成 交 金 额 的 0.003% 3 
4 
5 


131809 成 交 金额 的 0.004% 
131801 成 交 金 额 的 0.005% 
131802 成 交 金额 的 0.010% 10 
131803 成 交 金 额 的 0.020% 20 
131805 91 天 国债 回 购 成 交 金额 的 0.030% 30 


131806 R-182 182 天 国债 回 购 成 交 人 金额 的 0.030% 30 


5.4.3” 逆 回 购 交 易 


一 般 只 要 你 在 证 券 公司 有 交易 账户 ， 就 可 以 进行 逆 回 购 交 易 了 ， 不 需要 再 进行 额外 的 申请 。 逆 回 购 的 交易 操作 一 般 会 有 2 个 操作 界面 ， 一 个 是 用 来 看 行情 的 ， 另 一 个 是 用 来 交易 的 。 
1. 逆 回 购 行情 界面 


图 5-18 为 6C001 的 分 时 图 ， 就 是 用 来 观察 逆 回 购 行情 的 ， 大 部 分 的 软件 的 观察 行情 的 界面 都 是 类 似 的 。 我 对 图 中 各 部 分 的 功能 都 做 了 注释 说 明 。 
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图 5-18 ”GC001 行 情 分 时 图 

注释 解读 : 
1) 年 化 收益 率 : 以 Y 轴 表示 ， 以 年 化 收益 率 百 分 比 度量 。Y 轴 上 坐标 ， 红 色 为 高 于 昨日 收盘 价 ， 和 白色 为 昨日 收盘 价 ， 绿 色 为 低 于 昨日 收盘 价 。 
2) 年 化 收益 率 曲线 : 以 X (交易 时 间 轴 ) 和 Y (年 化 收益 率 ) 坐标 系 构建 的 曲线 。 
3) 交易 量 : 以 Y 轴 表示 ， 显 示 交 易 资金 量 ， 单 位 为 手 。 
4) 交易 量 柱 状 图 : 以 X (交易 时 间 轴 ) 和 Y (交易 量 ) 坐标 系 构建 的 柱状 图 。 
5) 交易 时 间 轴 : 以 X 轴 表示 ， 中 国 股市 的 交易 时 间 为 从 上 午 9: 30 至 11: 30， 下 午 13: 00 至 15: 00。 
6) 分 隔 线 : 分 隔 上 下 两 图 ， 上 图 为 分 时 年 化 收益 率 曲线 ， 下 图 为 交易 量 柱状 图 。 

变动 百分比 : 右边 的 Y 轴 ， 以 开盘 价 做 为 零点 ， 红 色 为 增长 百分比 ， 绿 色 为 下 降 百 分 比 。 
8) 交易 代码 和 名 称 : 显示 交易 代码 (204001) 和 名 称 (GC001) 。 
9) 买卖 比例 : 
" 委 比 = 〈 委 买 手数 - 委 卖 手数 ) / (〈 委 买 手数 + 委 卖 手数 ) X100%， 
. 红色 表示 买 盘 > 卖 盘 ; 绿色 则 相反 。 
10) 买卖 挂 单 情况 : 
` 买 一 ， 是 现在 这 一 时 刻 委 托 买 入 的 单子 中 ， 价 格 最 高 的 那些 笔 的 集合 笔 数 与 价格 。 
` 卖 一 ， 是 现在 这 一 时 刻 委 托 卖 出 的 单子 中 ， 最 低 价格 的 那些 笔 的 集合 笔 数 与 价格 。 
“ 委托 买 入 ， 买 一 、 买 二 、 买 三 、 买 四 、 买 五 是 委托 买 入 价格 ， 价 格 由 高 到 低 。 


` 委托 卖 出 ， 卖 一 、 卖 二 、 卖 三 、 卖 四 、 卖 五 是 委托 卖 出 价格 ， 价 格 由 低 到 高 。 


“ 现价 : 最 后 一 次 交易 的 价格 。 

今 开 : 开盘 价 。 

` 涨 跌 : 今日 收盘 -昨日 收盘 

` 涨幅: (现价 -上 一 个 交易 日 收盘 价 ) /上 一 个 交易 日 收盘 价 X100% 
最 高 : 今天 最 高 时 的 价格 。 


最低: 今天 最 低 时 的 价格 。 


量 比 : 当日 总 成 交手 数 与 近期 平均 成 交手 数 的 比值 。 如 量 比 数值 大 于 1， 表 示 这 个 时 刻 的 成 交 总 手 量 已 经 放大 ; 若 量 比 数值 小 于 1， 表 示 这 个 时 刻 成 交 总 手 萎缩 。 


"外盘: 成 交 价 是 卖 出 价 时 成 交 的 手数 总 和 称 为 外 盘 。 


12) 交易 历史 : 每 一 笔 交 易 的 流水 信息 ， 包 括 交 易 时 间 、 交 易 价格 (合算 的 年 化 收益 率 ) 、 交 易 资金 量 、 交 易 操作 (B ( 买 ) 9 ( 卖 ) ) 。 


13) 开盘 价 : 今日 的 开盘 时 的 价格 ， 开 盘 价 不 等 昨日 收盘 价 ， 开 盘 价 是 由 集合 竞价 决定 的 。 


2. 逆 回 购 交易 界面 


逆 回 购 的 交易 有 单独 的 操作 界面 ， 与 行情 是 完全 分 离 的 ， 这 是 出 于 安全 性 的 考虑 。 交 易 部 分 需要 用 户 登 录 ， 每 个 券商 的 交易 界面 都 是 不 一 样 的 ， 界 面 截 图 5-19 为 招商 证 券 股 票 交 易 软件 的 逆 回 购 交易 
作 界 面 。 
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4. 750 1900 债券 回 购 类 型 
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| 回 购 天 数 | 回 购 代 码 | 当前 可 卖 出 年 化 回 购 利率 (%) | 


-一同 逆 回 购 音 询 报价 方式 : | 限 价 委托 v 
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3. 价 格 跟 踪 ”深圳 国债 回 购 1 天 | 
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2. 交 易 操 作 
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图 5-19 ” 逆 回 购 交 易 界 面 


注释 解读 : 


1) 业务 选择 : 在 招商 证 券 的 软件 ， 把 逆 回 购 单独 做 了 一 个 分 类 ， 如 果 进 行 逆 回 购 操 作 ， 可 以 直接 选择 这 个 功能 。 


2) 交易 操作 : 


“ 股东 代码 : 选择 上 交 所 或 者 深交 所 。 


: 证券 代 码 : 204001。 


: 年 化 回 购 利率 : 可 以 理解 为 借款 利息 。 


“ 可 用 资金 : 当前 账号 中 的 余额 。 


` 最 大 可 融 数量 : 当前 余额 可 以 借 出 多 少 张 (每 张 1000 元 ) = 可 用 资金 /1000。 


" 委托 数量 : 输出 借 出 多 少 张 。 


“ 回 款 测算 : 计算 到 期 后 本 息 共 多 少 钱 ，= 委 托 数量 X1000X 年 化 回 购 利率 /365。 


“ 下 单 : 确认 付款 。 


3) 价格 跟踪 : 实时 变化 显示 买 一 、 买 五 、 卖 一 、 卖 五 。 


4) 逆 回 购 债券 列表 : 列 出 所 有 逆 回 购 债券 ， 不 会 时 时 更 新 要 自己 手动 刷新 。 


通过 2 个 界面 的 交互 ， 我 们 就 可 以 一 边 看 行情 ， 一 边 完成 逆 回 购 的 交易 了 ， 绝 大 多 数 的 逆 回 购 交 易 都 是 手动 操作 的 。 


5.4.4 正 回 购 操作 


梁 圳 国债 回 购 182 天 | 


131806 


正 回 购 是 与 逆 回 购 相 对 的 反 向 操作 。 逆 回 购 是 融资 给 别人 ， 收 取 利 息 。 正 回 购 则 是 向 做 逆 回 购 的 人 融资 ， 付 出 利息 。 正 回 购 业务 是 需要 申请 并 考试 通过 才能 开通 的 ， 


正 回 购 所 交易 的 品种 与 逆 回 购 一 样 ， 交 易 代 码 也 是 相同 的 。 正 回 购 的 操作 具有 如 下 的 特点 。 


1) 债券 持 有 人 (融资 方 ) 将 债券 出 质 ， 折 算 为 标准 券 。 


2) 在 标准 券 额 度 内 ， 可 向 投资 者 (出 资方 ) 融入 资金 ， 并 在 指定 日 期 偿还 。 


3) 回 购 融 资方 标准 券 使 用 率 不 超过 90% ， 放 大 套 做 倍数 不 超过 5 倍 。 


4) 个 人 投资 者 可 作为 出 资方 参与 债券 质押 式 回 购 业 务 。 


4. 
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正 回 购 需要 以 债券 抵押 ， 通 常 我 们 会 用 国债 、 企 业 债 、 金 融 债 、 可 转 债 等 作为 质押 物 。 根 据 风险 评级 ， 不 同 的 质押 物 会 有 不 同 的 折算 率 。 国 债 的 折算 率 一 般 最 高 的 在 99% ， 人 金融 债 就 会 比较 低 ， 有 可 能 
到 40%。 


训 


0 


FE 券 代 码 ， 证 券 简称 ， 标 准 券 折算 比例 


10107.SH,21 国 债 (7) ,1.0200 
10213.SH, 02 国 债 (13) ,0.9900 


10303.SH, 03 国 债 (3) ,0.9800 


NNNNNNNNNNNNNNN 


, 05 国债 (4) ,1.0300 
,05 国债 (12) ,1.0000 
,06 国债 (9) ,0.9800 
;06 国债 (19) ,0.9600 
,07 国债 03, 0.9700 
; 07 国债 06, 0.9800 
; 07 国债 10, 0.9900 
,07 国债 13, 0.9800 
10 国 债 02, 0.9400 
10 国 债 03, 0 .9800 
10 国 债 05, 1.0000 
10 国 债 07, 0 .9500 
10 国 债 09, 0 .9800 
10 国 债 10, 1.0000 
10 国 债 12, 0.9900 


图 5-20 正 国 购 与 递 回 购 


那么 如 果 用 国债 进行 质押 ， 然 后 利用 正 回 购 融 资 ， 再 把 融资 的 钱 买 入 国债 ， 再 质押 再 融资 。 通 过 正 回 购 加 杠杆 的 过 程 ， 如 图 5-21 所 示 。 


图 5-21 中 ， 我 们 用 100 万 元 现金 购买 债券 ， 然 后 通过 正 回 购 质 押 来 加 杠杆 。 由 于 国债 的 折算 率 非 常 高 为 100%， 这 个 过 程 资 金 基 本 没有 损失 。 通 过 3 次 加 杠杆 的 操作 ， 我 们 实际 通过 100 万 元 购买 了 
100+90+81+73=344 万 元 的 债券 ， 杠 杆 率 为 3.4 倍 ， 而 我 们 需要 每 日 支付 的 利息 为 109.589+98.63014+87.67123+76.71233=372.6027 元 。 


这 样 的 操作 就 可 以 不 停 地 给 自己 加 杠杆 ， 把 资金 的 倍数 放大 ， 用 人 小钱 援 动 大 市 场 ， 不 过 风险 级 数 也 会 被 同样 地 放大 。 如 果 债 券 价 格 下 跌 ， 或 者 回 购 利率 升 高 ， 都 会 造成 放大 倍数 的 损失 。 为 了 避免 无 限 
放大 的 倍数 ， 一 般 券 商 系统 都 会 限制 不 能 超过 5 倍 。 对 于 杠杆 操作 ， 需 要 特别 地 小 心 ! 


5.4.5 ”央行 的 公开 市 场 操作 


我 们 经 常 从 新 闻 中 听 到 的 ， 央 行 的 公开 市 场 操作 ， 有 一 项 说 的 就 是 逆 回 购 和 正 回 购 的 交易 操作 ， 该 操作 属于 货币 政策 。 
比如 ，2017 年 2 月 15 日 ， 央 行 有 关公 开 市 场 操作 的 新 闻 : 


本 周 中国 央 行 公 开 市 场 共 9000 亿 元 人 民 币 递 回 购 到 期 ，1515 亿 元 MLF 在 周三 到 期 ， 约 6300 亿 元 TLF 则 将 于 周 五 左右 集中 到 期 。 进 入 本 周 ， 央 行 开始 重启 逆 回 购 ， 周 一 至 今 连续 三 天 进行 递 回 购 操 作 ， 不 
过 每 日 流动 性 仍 处 于 净 回 笼 状态 : 周一 净 回 笼 900 亿 元 ， 周 二 着 回笼 1000 亿 元 ， 今 日 净 回 笼 1400 亿 元 。 流 动 性 偏 紧 也 反映 在 了 市 场 上 ，shibor 利 率 今 日 全 线 上 涨 ， 隔 夜 shibot 报 2.2658%， 上 涨 0.48 个 基点 ; 7 天 
shibor 报 2.6270%， 上 涨 0.62 个 基点 ; 3 个 月 shibot 报 4.2394%， 上 涨 2.46 个 基点 。 截 至 11: 25， 中 国 7 天 质押 式 回 购 利率 跳 升 26 个 基点 至 2.7819%， 至 2015 年 7 月 以 来 高 位 ; 14 天 期 跳 涨 25 个 基点 至 3.3556%。 


买 入 国债 (010512.SH ) ,价值 100 万 


入 库 质 押 ， 折 算 率 100% 


转换 为 标准 券 ， 使 用 率 90% 


正 回 购 ，GC001，4% 
1 日 利息 =100 万 *4%*1/365=109.589 元 


买 入 国债 (010512.SH ) ,价值 831 万 


买 入 国债 (010512.SH ) ,价值 73 万 


入 库 质押 上 ， 折 算 率 100% 


买 入 国债 (010512.SH ) ,价值 90 万 
入 库 质 押 ， 折 算 率 100% 
转换 为 标准 券 ， 使 用 率 90% 


正 回 购 ，GC001，4% 
1 日 利息 =90 万 *4%*1/365=98.63014 元 


入 库 质 押 ， 折 算 率 100% 


转换 为 标准 券 ， 使 用 率 90% 转换 为 标准 券 ， 使 用 率 90% 


第 1 次 加 杠杆 第 2 次 加 杠杆 第 3 次 加 杠杆 


正 回 购 ，GC001，4% 
1 日 利息 =70 万 *4%*1/365=76.71233 元 


正 回 购 ，GC001，4% 
1 日 利息 =80 万 *4%*1/365=87.67123 元 


70 万 *100%*90%=63 万 


融资 额 
80 万 *100%*90%=72 万 


90 万 *100%*90%=81 万 


100 万 *100%*90%=90 万 


剩余 债券 ， 价 值 1 万 剩余 债券 ， 价 值 3 万 


图 5-21 正 回 购 加 杠杆 的 过 程 
央行 通过 购买 逆 回 购 操作 使 市 场 资金 收缩 ， 通 过 购买 正 回 购 操 作 释 放 资 金 ， 给 市 场 注入 更 大 的 流动 性 ， 从 而 达到 国家 对 市 场 的 安 观 调控 。 
下 面 我 们 再 用 数据 分 析 一 下 回 购 市 场 的 利率 规律 。 
本 文 所 使 用 的 系统 环境 : 
* Win1064bit 


* R: 3.2.3 x86_64-w64-mingew32/x64 b4bit 


整理 回 购 GC001 的 数据 ， 保 存 为 6C001.csv， 数 据 格式 如 下 ， 一 共 7 列 。 


日 期 ， 开 盘 价 ， 最 高 价 ， 最 低 价 ， 收 盘 价 ， 成 交 额 ， 成 交 量 


1 2006=05=08: .1:5 lS 二 1 Let0S Je+05 
2 2006-05-09 1.5 1.5 1.5 1.5 0e+00 Oe+00 
3. 2006=095=10° ,5 1:5, 15 1.5 0e+00 0e+00 
4 2006-05=11 工本 1.5 1.5 1.5 0e+00 OQe+00 
5 2006=09=12 .1.9 T9515 .or Qet0Q Ode+00 
6 2006-05-15 “3 dD. Led 1.5 0e+00 0e+00 


首先 ， 我 们 对 数据 进行 简单 的 可 视 化 ， 整 体 观察 一 下 数据 的 情况 。 以 收盘 价 最 高 价 作 曲线 图 ， 并 以 利率 10% 作 为 标 线 ， 看 看 有 多 长 时 间 ， 回 购 利率 是 高 于 10% 的 。 
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释 。 


> library (xts) 

> library (ggplot2) 

> library (scales) 

# 读 入 数据 

> gc<-read.csv (f ile="GC001 .csv",header=TRUE,) 

> names (gc) <-c('date', 'open', 'high', 'low', 'close', 'value', 'volumn') 
# 转 为 时 间 序 列 类 型 

> gcx<-xts (gc[,-1],order.by=as.Date (gc$date, formate="'%Y-%m-%$d")) 

# 画图 ， 利 率 走势 

> g<-ggplot (aes (x=Index, y=Value, colour=Series),data=fortifyl(gcx[,c('high','close')],melt=TRUE)) 
> g<-gtgeom line (size=1) 

> g<-gtgeom hline (yintercept=10,col='blue',size=1) 

> g<-gtscale y continuous (breaks=seq(0,100,10)) 

> 9 


图 5-22 中 ， 红 色 线 为 回 购 利率 最 高 价 ， 蓝 色 线 为 回 购 利率 的 收盘 价 ， 平 行 于 X 轴 的 直线 为 10% 的 利率 水 平 。 我 们 可 以 明显 地 看 出 ， 在 2007 年 到 2008 年 间 ， 回 购 利率 异常 的 高 ， 表 示 市 场 突然 缺 钱 ， 而 且 
之 前 未 出 现 过 的 情况 。 从 2012 年 到 2015 年 ， 回 购 市 场 的 利率 频繁 地 超过 10% 的 利率 水 平 ， 表 示 市 场 缺 钱 的 一 种 常态 化 。 这 个 图 应 该 有 更 多 的 内 容 可 以 说 ， 但 以 我 目前 的 知识 水 平 ， 还 不 能 做 出 更 多 的 解 
望 有 一 天 ， 我 能 够 讲 明白 这 背后 的 道理 。 
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图 5-22” 回 购 利 率 


我 们 再 来 分 析 一 下 回 购 市 场 的 规律 ， 一 般 在 什么 时 间 会 出 现 利率 升 高 。 我 们 先 找 出 最 高 价 大 于 6% 的 数据 ， 然 后 计算 在 周 几 出 现 的 机 率 较 大 ， 在 每 月 几 日 的 出 现 几 率 较 大 。 


> library (lubridate) 


# 收益 率 大 于 6 
> gcx6<-gcx[which (gcx$high>6),] 


# 一 般 在 周 几 出 现 机 率 大 
> table (wday (index (gcx6) ) -1) 


二 2 .3 - 汉 5 
59 63 72 190 84 


# 一 般 在 每 月 几 日 的 出 现 几率 大 
> table (days in month (index (gcx6) ) ) 


28. .29 30 .31 
32 1.79 290 


从 数据 的 结果 来 看 ，GC001 在 周 四 时 ， 最 高 价 在 6% 以 上 出 现 的 次 数 最 多 ， 这 是 因为 周 四 正 回 购 方 借 到 的 钱 可 以 使 用 3 天 ， 包 括 了 周末 。 从 月 度 分 析 ， 发 现在 月 末 最 高 价 在 6% 以 上 出 现 的 次 数 最 多 ， 这 是 


因为 很 多 短期 票据 到 期 ， 银 行 结算 时 临时 缺 钱 。 那 么 ， 我 们 可 以 抓 住 这 样 的 机 会 ， 在 利率 升 高 时 交易 逆 回 购 ， 获 得 更 高 的 无 风险 收益 。 


最 后 ， 回 到 现实 生活 中 ， 建 议 大 家 可 以 开 个 户 试 一 下 逆 回 购 。 逆 回 购 昌 然 赚 不 到 大 钱 ， 不 过 转移 银行 储蓄 存款 倒是 还 不 错 的 选择 。 


6.1 均值 回归 ， 逆 市 中 的 投资 机 会 


问题 


如 何 用 R 语 言 言 实现 均值 回 归 模型 


均值 回归 ， 友 现 


市 中 投资 机 会 
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在 股票 市 场 中 有 两 种 典型 的 投资 策略 : 趋势 追踪 (Trend Following) 和 均值 回归 (Mean Reversion) 。 趋 势 追 踪 策 略 的 特点 在 大 行情 的 波动 段 找 到 有 效 的 交易 信号 ， 不 仅 简 单 而 且 有 效 。 在 《R 的 极 


客 理 想 一 一 高 级 开发 骗 》 中 2.3 节 提 到 的 内 容 就 属于 趋势 追踪 策略 。 均 值 回 归 策 略 则 是 一 种 有 反 趋 势 策 略 ， 一 波 大 幅 上 涨 后 容易 出 现下 跌 ， 而 一 波 大 幅 下 跌 后 容易 出 现 上 涨 ， 其 特点 在 振荡 的 在 震荡 的 市 场 中 非 
常 有 效 ， 捕捉 小 的 机 会 ， 本 节 就 将 介绍 这 种 策略 。 


6.1.1 均值 回归 原理 


在 金融 学 中 ， 均 值 回归 是 价格 偏离 均衡 价格 水 平一 定 程 度 后 向 均衡 价格 靠拢 的 规律 。 本 质 上 ， 均 值 回归 就 是 哲学 思想 中 所 说 的 物 极 必 反 ， 可 以 简单 地 概括 为 “ 涨 多 必 跌 ， 跌 多 必 涨 ”的 规律 。 


均值 回归 指 股票 价格 无 论 高 于 或 低 于 均值 〈 即 均衡 价格 水 平 ) 都 会 以 很 高 的 概率 向 均值 回归 。 根 据 这 个 理论 ， 股 票 价格 总 是 围绕 其 均值 上 下 波动 。 一 种 上 涨 /下 跌 的 趋势 不 管 其 延续 的 时 间 多 长 ， 都 不 能 
永远 持续 下 去 ， 最 终 均 值 回归 的 规律 一 定 会 出 现 : 涨 得 太 多 了 ， 就 会 向 均值 移动 下 跌 ;， 跌 得 太 多 了 ， 就 会 向 均值 移动 上 涨 。 如 果 我 们 认为 事物 总 要 回归 常态 ， 并 且 基 于 这 样 的 预期 来 做 任何 决策 的 时 候 ,我 
们 就 是 在 应 用 均值 回归 的 理论 。 


下 面 以 平安 银行 (000001) 股票 日 K 线 图 为 例 ， 可 以 非常 直观 地 了 解 均 值 回归 这 种 现象 ， 截 取 2005 年 到 2015 年 7 月 的 股票 数据 ， 股 价 为 向 前 复权 的 价格 。 


平安 银行 (000001 ) 
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图 6-1 平安 银行 股价 图 


在 图 6-1 中 有 3 条 曲线 ， 黑 色 线 是 平安 银行 向 前 复权 后 的 每 日 股价 ， 红 色 线 为 20 日 均线 ， 蓝 色 线 为 60 日 均线 。 图 中 还 有 一 条 红色 的 水 平 线 虚线 ， 为 这 10 年 的 股价 平均 值 ， 等 于 7.14 元 。 这 10 年 间 ， 和 平安 银 
行 的 股价 经 历 了 几 波 上 涨 和 下 跌 ， 多 次 穿越 7.14 的 平均 值 。 这 个 现象 就 是 我 们 要 讨论 的 均值 回归 。 


1. 均 值 回归 的 3 个 特性 
均值 回归 是 价值 投资 理论 成 立 的 一 个 核心 理论 ， 具 有 3 个 特性 : 必然 性 、 不 对 称 性 、 政 府 调控 。 
(1) 必然 性 


股票 价格 不 能 总 是 上 涨 或 下 跌 ， 一 种 趋势 不 管 其 持续 的 时 间 多 长 都 不 能 永远 持续 下 去 。 在 一 个 趋势 内 ， 股 票 价格 呈 持 续 上 升 或 下 降 ， 我 们 称 之 为 均值 回避 (Mean Aversion) 。 当 出 现 相 反 趋 势 时 就 呈 
均值 回归 (Mean Reversion) ， 但 回归 的 周期 具有 随机 性 ， 是 我 们 不 能 预测 。 不 同 的 股票 市 场 ， 其 回归 的 周期 是 不 一 样 的 ， 就 算是 相同 的 市 场 ， 回 归 的 周期 也 是 不 一 样 的 。 


我 们 换 支 股票 ， 以 苏宁 云 商 (002024) 股票 日 K 线 图 为 例 ， 同 样 截取 2005 年 到 2015 年 7 月 的 向 前 复权 的 股价 数据 ， 如 下 图 所 示 。 我 们 看 到 苏宁 云 商 在 2006 年 到 2007 年 有 一 波 大 涨 随后 下 跌 ; 从 2009 到 
2010 年 时 ， 第 二 波 大 涨 ; 2013 年 下 半年 迎 来 第 三 波 大 涨 ; 2014 年 下 半年 到 2015 年 第 四 波 大 涨 。 从 图 形 上 可 以 直观 看 到 ，2015 年 这 波 涨 的 最 急 ， 波 动 率 也 是 最 大 的 ;从 现象 中 ， 我 们 可 以 判断 一 种 趋势 不 管 
其 持续 的 时 间 多 长 都 不 能 永远 持续 下 去 。 


苏宁 云南 ( 002024 ) 
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图 6-2 ”苏宁 云 商 的 股价 图 
(2) 不 对 称 性 
股价 波动 的 幅度 与 速度 是 不 一 样 的 ， 回 归 时 的 幅度 与 速度 具有 随机 性 。 对 称 的 均值 回归 才 是 不 正常 的 、 偶 然 的 ， 这 一 点 也 可 以 从 股票 中 验证 。 


我 们 合并 平安 银行 (000001) 和 苏宁 云 商 (002024) 股票 日 K 线 图 ， 如 图 6-3 所 示 。 两 只 股票 在 2007 年 中 ， 都 赶 上 了 大 的 上 涨 行情 ， 曲 线 基本 吻合 。 到 2008 年 2 只 股票 都 遇 到 了 大 跌 ， 但 波动 率 和 速度 
都 是 不 一 样 的 ， 随 后 在 2010 年 到 2012 年 出 现 了 完全 不 一 样 的 走势 ， 无 规律 可 寻 ， 体 现 了 均值 回归 时 的 随机 性 和 不 对 称 性 。 
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图 6-3 ”合并 平安 银行 和 苏宁 云 商 股价 图 
(3) 政府 行为 


股票 收益 率 不 会 偏离 价值 均值 时 间 太 久 ， 市 场 的 内 在 力量 会 促使 其 向 内 在 价值 回归 。 市 场 在 没有 政府 政策 的 作用 下 ， 股 票 价格 会 在 市 场 机 制 下 自然 地 向 均值 回归 。 但 这 并 不 否定 政府 行为 对 促进 市 场 有 
效 性 的 作用 ， 因 为 市 场 偏离 内 在 价值 后 并 不 等 于 立即 就 会 向 内 在 价值 回归 ， 很 可 能 会 出 现 持续 地 均值 回避 。 政 府 行 为 会 起 到 抑制 市 场 调节 市 场 的 作用 ， 是 必 不 可 少 的 因素 之 一 ， 市 场 失灵 也 是 政府 参与 调控 
的 直接 的 结果 。 


对 于 政府 政策 行为 ， 比 如 升 准 、 降 准 、 升 息 、 降 息 ， 在 股市 中 都 会 有 比如 明显 的 体现 。 房 地 产 股 、 银 行 股 ， 都 会 受到 国家 宏观 调控 的 直接 的 影响 。 如 图 6-4 所 示 ， 在 图 中 增加 万 科 A (0000002) 的 股 
票 ， 图 中 3 条 线 分 别 是 平安 银行 、 万 科 A、 苏 宁 云 商 3 支 股票 。 我 们 发 现 地 产 和 银行 的 股价 走势 是 比较 相近 的 ， 而 电 商 的 走势 则 不 太一 样 。 
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图 6-4 ”利率 影响 的 股价 图 


另外 ， 增 加 2 种 颜色 的 辅助 线 ， 红 色 为 升 息 的 时 间 点 和 利率 变动 值 ， 黄 色 为 降息 的 时 间 点 和 利率 变动 值 。 当 2007 年 股市 超 涨 的 时 候 ， 国 家 宏观 调控 通过 升 息 鼓 励 存款 ， 抑 制 高 股 价 ; 当 股票 超 跌 的 时 
候 ， 通 过 降息 推动 投资 和 消费 。2015 年 金融 改革 ， 政 府 一 直 都 在 降息 拉动 股市 。 从 图 6-4 中 ， 我 们 看 到 万 科 A 和 平安 银行 对 于 升 息 和 降息 的 调控 是 比较 明显 的 ， 而 对 于 苏宁 云 商 则 不 是 特别 的 明显 。 


通过 对 市 场 的 回顾 ， 我 们 基本 验证 了 均值 回归 的 理论 是 和 市 场 的 行为 是 一 致 的 。 那 么 ， 接 下 来 我 们 应 该 如 何 应 用 这 个 理论 来 找到 投资 的 切入 点 呢 ? 


2. 计 算 原 理 和 公式 


从 价值 投资 的 角度 ， 我 们 发 现 股价 会 在 平均 值 上 下 波动 ， 但 如 果 考 虑 到 资金 的 时 间 成 本 ， 把 钱 都 压 在 股市 中 ， 等 待 几 年 的 大 行情 ， 也 是 很 不 划算 的 。 那 么 我 们 就 需要 对 价值 均值 进行 重新 定义 ， 以 20 日 
均值 来 代 蔡 长 期 均值 ， 找 到 短 周期 的 一 种 投资 方法 。 


计算 原理 : 取 日 K 线 ， 以 N 日 均线 做 为 均值 回归 的 短期 均衡 价格 水 平 (均值 ) ， 计 算 股 价 到 均值 的 差 值 ， 求 出 差 值 的 N 日 的 平均 标准 差 ， 从 而 判断 差 值 的 对 于 均值 的 偏离 ， 当 偏离 超过 2 倍 标准 差 时 ,我 
们 就 认为 股价 超 涨 或 超 跌 ， 股 价 会 遵循 均值 回归 的 理论 ， 向 均值 不 停 地 进行 修复 。 


计算 公式 : 


N 日 平均 值 = 江上 日 股价 + 〈T-1) 日 股价 +…+ (TIT- CON-1) ) 日 股价 IN 


差 值 =N 日 平均 值 -N 日 股价 


NN 日 差 值 均值 =[ 工 日 差 值 + (T-1) 日 差 值 +…+ (T- (N-1) ) 日 差 值 |/N 


NN 日 差 值 标准 差 =sqrt ([ (TI 日 差 值 - 工 日 差 值 均值 ) ^2+… 十 〈( (T- (N-1) ) 日 差 值 - (IT- (N-1) ) 日 差 值 均 值 ) “2]/N) 


如 果 N 为 20 日 


20 日 平均 值 = 撕 日 股价 + (ITT1) 日 股价 +… 十 ( 工 19) 日 股价 ]/20 


， 则 


计算 偏离 点 
工 日 差 值 >T 日 差 值 标准 差 *2 
我 们 以 偏离 点 作为 买 入 信号 点 ， 以 均线 和 股价 的 下 一 个 交点 做 为 卖 出 信号 点 。 这 样 我 们 就 把 均值 回归 的 投资 理论 变 成 了 一 个 数学 模型 。 
6.1.2 均值 回归 模型 和 实现 


接 下 来 ， 我 们 利用 R 语 言 对 股票 数据 的 进行 操作 ， 来 实现 一 个 均值 回归 模型 的 实例 ， 从 而 验证 我 的 们 投资 理论 是 否 能 发 现 赚钱 的 机 会 。 


本 文 所 使 用 的 系统 环境 : 


* Win1064bit 


“ R: 3.2.3 x86_64-w64-mingew32/x64 b4bit 


1. 数 据 准备 


R 语 言 本 身 提供 了 丰富 的 金融 函数 工具 包 ， 时 间 序 列 包 zoo 和 xts， 指 标 计算 包 TTR， 数 据 处 理 包 plyr， 可 视 包 ggplot2 等 ， 我 们 会 一 起 使 用 这 些 工具 包 来 完成 建 模 、 计 算 和 可 视 化 的 工作 。 关 于 zoo 包 和 
xts 包 的 详细 使 用 ， 可 以 参考 《R 的 极 客 理想 一 一 工具 篇 》 中 2.1 节 和 2.2 节 的 内 容 。 


本 次 用 到 的 数据 ， 你 可 以 通过 新 浪 财经 爬 取 ， 也 可 以 用 quantmod 包 从 Yahoo 财 经 下 载 。 


本 文 用 到 的 数据 ， 包 括 A 股 日 K 线 (向 前 复权 ) 数据 ， 从 2014 年 7 月 到 2015 年 日 7 月 ， 以 CSV 格 式 保存 到 本 地 文件 stock.csv。 


数据 格式 如 下 


000001.S2720] 
000002.S2720] 


1 4-07-02,8.14,8.1] 


.17,286041] 


14-07-02,8.09,8.1 


L171 


05,8.12,40633] 


L22 


000004.52,2014-=-07-02,13.9,13.99,13.82,13.95,1081139 
000005,.32,2014=07=02,2.27;2.29,2,26,2.28,4157537 
000006.S2,2014-07-02,4.57,4.57,4.50,4.55,5137384 
000010.52,2014-07-=02,6.6,6.82,6.5,6.73,9909143 


一 共 7 列 : 

“ 第 1 列 : 股票 代码 ，code，000001.SZ 
. 第 2 列 : 交易 日 期 ，date，2014-07-02 
. 第 3 列 : 开盘 价 ，Open，8.14 
第 4 列 : 最 高 价 ，High，8.18 

. 第 5 列 : 最 低 价 ，Low，8.10 

. 第 6 列 : 收 瘟 价 ，Close，8.17 
:第 7 列 : 交易 量 ，Volume，28604171 


通过 R 语 言 加载 股 票数 据 ， 由 于 数据 所 有 股票 都 是 混合 在 一 起 的 ， 而 进行 计算 时 又 需要 按 每 只 票 股 计算 ， 所 以 在 数据 加 载 时 我 就 进行 了 转换 ， 按 股票 代码 进行 分 组 ， 生 成 R 语 言 的 list 对 象 ， 同 时 把 每 只 股 
票 的 data.frame 类 型 对 象 转 成 XTS 时 间 序 列 类 型 对 象 ， 方 便 后 续 的 数据 处 理 。 


# 加 载 工具 包 
> library (plyr) 
> library (xts) 
> library (TTR) 
> library (ggplot2) 
> library (scales) 


一 一 一 一 


# 读 取 CSV 数 据 文件 
> read<-function (fi 
+ df<-read.table (file=f ile,header=FALSE,sep = ",", na.strings = "NULL") # 读 文 件 
+ names (df)<-c ("code", "date", "Open", "High", "Low", "Close "Volume") # 设置 列 名 
+ dl<-split(df[-1],df$code) # 按 ccode 分 组 


+ lapply (dl,function (row) { # 换 成 xts 类 型 数据 
十 xts (row[-1],order.by = as.Date (row$date)) 

出 小) 

E 

# 加 载 数据 
> 


data<-read ("stock.csv") 


# 查看 数据 类 型 
> class (data) 
[1] "list" 


查看 数据 的 索引 值 
head (names (data)) 
] "000001.S2" "000002.S2" "000004.S2" "000005.S2" "000006.S2" "000007.SZ" 


# 
> 
[1 


I 


查看 包括 的 股票 数 和 
length (data) 
] 2782 


呀 


由 


# 查看 股票 000001 .Sz 
> head (data[{['000001.S2']]) 


Open High LOW Close Volume 
2014-07-02 8.146949 8.180000 8.105636 8.171737 28604171 
2014-07-03 8.171737 8.254364 8.122162 8.229576 44690486 
2014-07-04 8.237838 8.270889 8.146949 8.188263 34231126 
2014-07-07 8.188263 8.204788 8.097374 8.146949 3430616 
2014-07-08 8.130424 8.204788 8.072586 8.204788 34608702 
2014-07-09 8.196525 8.196525 7.915596 7.973434 58789114 


把 数据 准备 好 ， 我 们 就 可 以 建立 模型 了 。 
2. 均 值 回归 模型 


为 了 能 拉 近 我 们 对 市 场 的 了 解 ， 我 们 取 从 2015 年 1 月 1 日 开始 的 数据 ， 并 创建 均值 回归 模型 。 以 平安 银行 (000001) 的 为 例 ， 画 出 平安 银行 2015 年 以 来 的 日 K 线 和 均线 。 


# 获得 时 间 范 转 
> dateArea<-function (sDate=Sys.Date()-365,eDate= Sys.Date () ,before=0) { 


# 开 始 日 期 ， 结 束 日 期 ， 提 单 开始 时 


if(class (sDate)=='character') sDate=as.Date (sDate) 
十 if(class (eDate)=='character') eDate=as .Date (eDate) 
十 return (paste (sDate-before, eDate, sep="/")) 


+ ] 
# 计算 移动 平均 线 


> ma<-function (cdata,mas=c (5,20, 60)){ 

f (nrow (cdata) <=max (mas)) return (NULL) 

十 ldata<-cdata 

十 for(m in mas){ 

十 ldata<-merge (ldata, SMA (cdata,m)) 

+ } 

十 names (ldata) <-c('Value',paste('ma',mas,sep="'")) 
十 return (ldata) 


+ ] 


| 
PP- 


# 日 K 线 和 均线 
> title<-'000001.SZ'， 
> S2000011<-datal [title]] # 获得 股票 数据 
> sDate<-as.Date ("2015-01-01") # 开始 日 期 
> eDate<-as.Date ("2015-07-10") # 结束 日 期 
> cdata<-S2000011 [dateArea (sDate, eDate, 360) ] SClose # 获得 收盘 价 
> ldata<-ma (cdata,c (5,20, 60)) # 选择 移动 平均 指标 
# 打印 移动 平均 指标 
> tail (ldata) 
Value ma5 ma20 ma60 
20415=07=03 L307 13.768 .15.2545 15.84355 
2015-07-06 13.88 13.832 15.1335 15.82700 
2015-07-07 14.65 13.854 15.0015 15.79850 
2015=07=08 13.19 13.708 14..8120 15..74267 
2015-07-09 14.26 13.810 14.6910 15.70867 
2015-07-10 14.86 14.168 14.6100 15.67883 


我 们 设置 3 条 移动 平均 线 ， 分 别 是 5 日 平均 线 、20 日 平均 线 、60 日 平均 线 ， 当 然 也 可 以 按照 自己 的 个 性 要 求 设置 符合 自己 的 周期 。 画 出 日 K 线 和 均线 图 。 


> drawLine<-function (ldata,titie="Stock MA", sDate=min (index (ldata)),eDate=max (index (ldata)),breaks="] year",avg=FALSE,out=FALSE 
十 if (sDate<min (index (ldata))) sDate=min (index (ldata)) 

十 if(eDate>max (index (ldata))) eDate=max (index (ldata)) 

ldata<-na.omit (ldata) 


Se 
一 


g<-ggplot (aes (x=Index, y=Value),data=fortify(ldatal,1],melt=TRUE)) 
g<-gtgeom line () 
g<-gtgeom line (aes (colour=Series),data=fortify(ldatal,-1],melt=TRUE)) 


PP- 


f(avg)l{ 
meanVal<<-round (mean (ldata[dateArea (sDate,eDate) 1] $Value) ,2) # 均值 
g<-gtgeom hline (aes (yintercept=meanVal),color="red", A 0.8,size=1l, linetype="dashed") 


+ g<-gtgeom text (aes (x=sDate, y=meanVal,1label=meanVal),color="red",vjust=-0.4) 

+ } 

十 g<-gtscale x date(labels=date format ("%Y-%m"),breaks=date breaks (breaks), limits = C(SDatereDate) ) 
g<-gtylim(min(ldata$Value), max(ldata$Value)) 
g<-g+xlab("") + ylab ("Price")+ggtitle (title) 
9g 


> 


> drawLine (ldata,title, sDate,eDate, '1 month' TRUE 画图 


如 图 6-5 所 示 ，60 日 的 移动 平均 线 是 最 平滑 的 ，5 日 的 移动 平均 线 是 波动 最 大 的 。5 日 平均 线 和 股价 的 交叉 明显 多 于 60 日 平均 线 和 股价 的 交 又 。 那 么 可 以 说 在 相同 的 时 间 周 期 内 ， 短 周期 的 移动 平均 线 比 
长 周期 的 移动 平均 线 更 具有 均值 回归 的 特点 。 


000001.SZ 


L109 


ee I I I I I I I 
2015-01 2015-02 2015-03 2013-04 2015-05 2015-06 2013-07 


图 6-5 平安 银行 的 股价 和 平均 线 


我 们 分 别 计算 不 同 周期 的 股价 与 移动 平均 线 的 差 值 的 平均 标准 差 。 


> getMaSdq<-function (ldata,mas=20, sDate, eDate) { 

十 if(is.null(ldata) || nrow(ldata)<= max (mas)) return (NULL) 
col<-paste('ma',mas,sep="'") 

+ ldata<-ldatal[,c("Value",col)] 

十 ldata$dif<-ldatal[,col]-ldata$Vvalue 


ldata$sd<-runSsD (ldatal[l, "dif"],mas) 
ldata$rate<-round (ldata$dif/ldata$sd, 2) 
ldataldateArea (sDate, eDate)|] 


+ } 
# 5 日 平均 线 的 差 值 、 平 均 标 准 差 
> 


ldatas<-getMasd (ldata, 5, sDate, eDate) 

> head (ldata5) 

Value ma5 和 下 sd rate 
2015-01-05 13.23673 12.78724 -0.4494869 0.1613198 -2.79 
2015-01-06 13.03842 12.89961 -0.1388121 0.1909328 -0.73 
2015-01-07 12.79055 12.99215 0.2016081 0.3169068 0. 64 
2015-01-08 12.36089 12.90292 0.5420283 0.4472248 2 
2015-01-09 12.46004 12.77733 0.3172848 0.3910700 0.81 
2015-01-12 12.20390 12.57076 0.3668606 0.2533165 1.45 


# 20 日 平均 线 的 差 值 、 平 均 标 准 差 


> ldata20<-getMaSd (ldata, 20, sDate, eDate) 
- head (ldata20) 

Value ma20 dif sd rate 
2019=01=05 13.23613 12.18613 =1.05059293 0.6556366 =1..60 
2015-01-06 13.03842 12.23778 -0.80064848 0.6021093 -1.33 
2015-01-07 12.79055 12.24810 -0.5424 1 0.4754686 -1.14 
2015-01-08 12.36089 12.29975 -0.06114343 0.5130410 -0.12 
2015-01-09 12.46004 12.33651 -0.12352626 0.5150453 -0.24 
2015-01-12 12.20390 12.37163 0.16773131 0.5531618 0.30 


# 60 日 平均 线 的 差 值 、 平 均 标准 差 


> ldata60<-getMaSsd (ldata, 60, sDate, eDate) 

。 head (Laqata60) 

Value ma60 dif sd rate 
2015-01-05 13.23673 10.06939 -3.167340 1.264792 -2.50 
2015-01-06 13.03842 10.14678 -2.891644 1.271689 -2.27 
2019=01=07 12.79055 10.2208Y =2.569677 1.269302 =2.02 
2015-01-08 12.36089 10.28752 -2.073368 1.258813 -1.65 
2015-01-09 12.46004 10.35527 -2.104766 1.247967 -1.69 
2015-01-12 12.20390 10.41821 -1.785691 1.233989 -1.45 


5 日 的 平均 线 的 差 值 和 平均 标准 差 是 最 小 的 ， 而 60 日 的 平均 线 的 差 值 和 平均 标准 差 是 最 大 的 。 如 果 我 们 以 5 日 移动 平均 线 作为 均值 ， 会 频繁 进行 交易 ， 但 每 次 收益 都 很 小 ， 可 能 都 不 够 手续 费 的 成 本 ; 另 
一 方面 ， 如 果 我 们 以 60 日 移动 平均 线 做 为 均值 ， 交 易 次 数 会 较 少 ， 但 可 能 会 出 现 股票 形成 趋势 性 上 涨 或 下 跌 ， 长 时 间 不 能 回归 的 情况 ， 造 成 现金 头寸 的 紧张 。 综 合 上 面 的 2 种 情况 ， 我 们 可 以 选择 20 日 均线 
作为 均值 的 标的 。 


根据 模型 的 计算 公式 ， 当 差 值 超过 2 倍 的 平均 标准 差 时 ， 我 们 认为 股价 出 现 了 偏离 ， 以 偏离 点 作为 模型 的 买 入 信号 ， 当 均线 和 股价 再 次 相交 时 作为 卖 出 信号 。 


上 一 步 ， 我 们 已 经 计算 出 了 偏离 值 ， 并 保存 在 rate 列 中 。 下 面 我 们 要 找到 大 于 2 倍 标准 化 差 的 点 ， 并 画图 。 


# 差 值 和 平均 标准 差 ， 大 于 2 倍 平均 标准 差 的 点 


> BuyPoint<= 


function (ldata, x=2,dir=2){ 


十 idx<-which (ldata$rate>x) 

十 if (dir==2){ 

十 idx<-c (idx,which (ldata$rate<x*-1)) 
本 } 

+ return (ldata [idx, |]) 

是 


# 画 交 易 信号 点 
> 


drawPoint<-function (ldata,pdata,titie, sDate,eDate,breaks="] year"){ 


十 }elsef 


+ 


十 g<-ggplot (aes (x=] 
十 g<-gtgeom line () 
十 g<-gt+geom ] 


十 ldata<-na.omit (ldata) 


十 if(is.data.frame (pdata)) 


Line (aes (colour=Series),data=fortify(ldatal,-1],melt=TRUE 


[ndex, y=Value),data=fortify(ldatal,1],melt=TRUE)) 


~ 一 
Sa 


{ 


十 g<-gtgeom point (aes (x=Index,y=Value, colour=op) ,data=pdata, size=4) 


十 g<-gtgeom point (aes (x=Index,y=Value, colour=Series),data=na.omit (fortify 
(pdata, melt=TRUE) ) , size=4) 


十 g<-g+scale x date(labels=date format ("%Y-%m"),breaks=date breaks (breaks), limits = C(SDatereDate) ) 
十 g<-g+xlab("") + ylab ("Price")+ggtitjle (title) 

生 9 

+ } 

> buydata<-buyPoint (ldata20, 2,2) # 多 空 信号 点 


言 
> drawPoint (ldata20[,c(1,2)],buydata$Vvalue,title, sDate,eDate, '1 month') # 画图 


图 6-6 中 的 圆 点 就 是 买 入 的 信号 点 ， 由 于 我 们 对 股票 只 能 进行 单 向 交易 ， 即 低 买 高 卖 ， 并 不 能 直接 做 空 ， 所 以 我 们 要 过 滤 股 价 高 于 移动 平均 线 的 点 ， 只 留 下 股价 低 于 移动 平均 线 的 点 ， 即 我 们 的 买 入 信号 
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画 出 买 入 信号 点 ， 只 保留 股价 低 于 移动 平均 线 的 点 。 


> buydata<-buyPoint (ldata20, 2,1) # 做 多 信号 点 
> drawPoint (ldata20[,c(1,2)],buydata$Vvalue,title, sDate,eDate, '1 month') # 画图 


计算 卖 出 的 信号 


# 计算 卖 出 的 信和 


> sellPoint<— 


号 点 


+ }) 


点 ， 当 买 入 后 ,下 一 个 股价 与 移动 平均 线 的 交点 就 是 卖 出 的 信号 点 ， 我 们 看 看 是 否 可 以 赚 到 | 钱 。 


function (ldata,buydata) { 
十 buy<-buydatal[which (buydata$dif>0),] 


+ aidx<-index (ldata[lwhich (ldata$dif<=0),|]) 
于 sellIdx<-sapply (index (buy) function (ele) { 
十 head (which (aidx>ele),1) 


十 ldatalaidx[unique (unlist (sellIgdx))]] 


> selldata<-sellPoint (ldata20, buydata) 


Value ma20 dif 


sd rate 


2015-07-10 14.86 14.6] -0.25 0.7384824 -0.34 


我 们 把 买 入 信号 和 卖 出 信号 合并 到 一 张 


图 上 显示 ， 如 图 所 示 。 


> bsdata<-merge (buydatas$sValue, selldata$Value) 


> names (bsdata) <-c ("buy", "sell") 


> drawPoint (ldata20[,c(1,2)],bsdata,title, sDate,eDate, '1 month') # 男 图 


2013-00 2013-07 


000001.SZ 
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图 6-8 ”增加 卖 出 信号 点 
利用 交易 信号 数据 进行 模拟 交易 。 我 们 设 定 交 易 参 数 和 规则 : 
. 以 10 万 元 人 民 币 为 本 金 。 
` 买 入 信号 出 现时 ， 以 收盘 价 买 入 ， 每 次 买 入 价值 1 万 元 的 股票 。 如 果 连 续 出 现 买 入 信号 ， 则 一 直 买 入 。 若 现金 不 足 1 万 元 时 ， 则 跳 过 买 入 信号 。 


* 卖 出 信号 出 现时 ， 以 收盘 价 卖 出 ， 一 次 性 平 仓 信 号 对 应 的 股票 。 
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图 6-7 过 滤 买 入 信号 的 点 
如 图 6-8 所 示 ， 我 们 在 左 侧 4 个 点 的 位 置 进行 买 入 ， 而 在 最 右 侧 点 位 置 进行 卖 出 ， 确 实 是 赚钱 的 。 那 么 究竟 赚 了 多 少 钱 呢 ? 我 们 还 需要 精确 的 计算 出 来 。 
# 合并 交易 信号 
> signal<-function (buy, sell){ 
十 selldf<-data.frame (sell,op=as.character (rep("S",nrow (sell)))) 
十 buydf<-data.frame (buy, op=as .character (rep ("B",nrow (buy) ) ) ) 
+ sdata<-rbindgd (buydf, selldf) 
十 sdata[order (as .Date (row.names (Sdqata) ) ) ，] 
+ } 
# 交易 信号 数据 
> sdata<-signal (buydata, selldata) 
> sdata 
Value ma20 dif sd rate op 
2015-06-19 14.63 16.0965 1.4665 0.6620157 2.22 B 
2015-06-26 13.77 15.7720 2.0020 0.8271793 2.42 B 
2015-06-29 13.56 15.6840 2.1240 0.9271735 2.29 B 
2015-07-03 13.07 15.2545 2.1845 1.0434926 2.09 B 
2015-07-10 14.86 14.6100 -0.2500 0.7384824 -0.34 5S 
000001.SZ 
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# 模拟 交易 


') ) ，] 


asset 
100000.00 
99412 .62 
99116.73 
98065.19 
103275.88 


> trade<-function (sdata,capital=100000,f ixMoney=10000)1{ 
十 amount<-0 
十 cash<-capital 
十 ticks<-data.frame () 
后 for(i in 1:nrow(sdqata) ) { 
十 row<-sdatal[i,] 
十 if (row$op=="'B"')1 
十 if (cash<f ixMoney) { 
本 print (paste (row.names (row), "No enough cash")) 
十 next 
束 } 
+ amount0<-f loor (f ixMoney/row$Value) 
上 amount<-amount+amount0 
本 Cash<-cash-amount0OxTrOwWSValue 
本 } 
小 if (row$op=="'S")1 
十 cash<-cashtamount*row$Value 
十 amount<-0 
* } 
机 row$cash<-round (cash, 2) 
+ row$amount<-amount 
og row$asset<-round (cashtamount*row$Value, 2) 
十 ticks<-rbind (ticks, row) 
下 } 
十 ticks$diff<-c(0,round (diff (ticks$asset),2)) 
十 rise<-ticks [intersect (which (ticks$diff>0),which (ticks$op==" 
十 fall<-ticks[intersect (which (ticks$diff<0),which (ticks$op=="'S"')),] 
十 return (list (ticks=ticks,rise=rise, fall=fall)) 
二 洁 
# 交易 结果 
> result<-trade (sdata,100000,10000) 
来 看 一 下 每 笔 交易 的 明细 。 
> LesultSticks 
Value ma20 dif sd rate op cash amount 
2015-06-19 14.63 16.0965 1.4665 0.6620157 2.22 B 90007.71 683 
2015-06-26 13.77 15.7720 2.0020 0.8271793 2.42 B 80010.69 1409 
2015-06-29 13.56 15.6840 2.1240 0.9271735 2.29 B 70016.97 2146 
2015-07-03 13.07 15.2545 2.1845 1.0434926 2.09 B 60018.42 2911 
2015-07-10 14.86 14.6100 -0.2500 0.7384824 -0.34 S 103275.88 0 
一 共 发 生 了 5 笔 交 易 ， 其 中 4 笔 买 入 ，1 笔 卖 出 。 最 后 ， 资 金 剩余 103275.88 元 ， 


在 卖 册 时， 赚钱 的 交易 有 1 笔 。 


> TesultSrise 
Value ma20 


dif 
2015-07-10 14.86 14.61 -0.25 0.7384824 -0.34 


在 卖 出 时 ， 赔 钱 的 交易 没有 发 生 。 


> result$fall 
[1] Value ma20 dif 
<0 行 > (或 0- 长 度 的 row.names) 


sd 


sd 


rate 


接 下 来 ， 我 们 再 对 比 一 下 资产 净值 和 股价 。 


rate op 


op 


cash 


cash amount 
S03275.9 


asset 
0 103275.9 5210.69 


di 
0.00 
=-587 8 
3 
-1051.54 
SZL009 


赚 了 3275.88 元 ， 收 益 率 为 3.275%。 


di 


amount asset 


diff 


# 资产 净值 曲线 

> drawAsset<-function (ldata,adata, sDate=FALSE, capital=100000){ 

十 if(!sDate) sDate<-index (ldata) [1] 

十 adata<-rbind(adata,as.xts (capital,as.Date (SDate) ) ) 

十 g<-ggplot (aes (x=Index, y=Value),data=fortify(ldatal,1],melt=TRUE)) 

十 g<-gtgeom line () 

十 g<-gtgeom line (aes (x=as.Date (Index), y=Value,colour=Series),data=fortify (adata,melt=TRUE)) 
+ g<-g+facet griq(Series ~ .vscales = "free y") 

十 g<-gtscale y continuous (labels=dollar format (pref ix = "Y¥")) 

二 g<-gtscale x date(labels=date format ("%Y-%m"),breaks=date breaks ("2 months"), limits = c(sDate,eDate)) 
十 g<-g+xlab("") + ylab ("Price")+ggtitle (title) 

十 9g 

和 

> drawAsset (ldata20,as.xts (result$ticks['asset'])) 资产 净值 曲线 


Price 


¥16- 


¥14- 


¥12 - 


¥103 000 - 


¥102 000 - 


¥101 000 - 


¥100 000 - 


刚才 我 们 对 一 支 股票 
的 表现 情况 了 。 
> quick<- 


¥99 000 - 


¥98 000 - 


stock<-datal [titlell] 


cdata<-stock[da 
ldata<-ma (cdata,c (20)) 


buydata<-buyPoint (Ldata, 2,1) 
selldata<-sellPoint (ldata,buydata) 


sdata<-signal 


return (trade (sdata)) 


1 
2013-02 


Function (title, sDate,eDate) { 


ldata<-getMaSd (ldata, 20, sDate, eDate) 


| (buydata, selldata) 


teArea (sDate, eDate, 360) ] $Close 


我 们 用 乐 视 网 (300104) 试 一 下 ， 看 看 有 没有 赚钱 的 机 会 ! 


> title<-"300104.SZn 


> SDate<-as .Da 
> eDate<-as .Da 


te ("2015-07-10") # 结 束 


te ("2015-01-01") # 开 始 


> quick(title, sDate,eDate) 
$sticks 


日 期 


图 6-9 


000001.SZ 


1 
2015-04 


资产 和 净值 曲线 


Value ma20 dif sd rate op cash amount asset diff 
2015-06-19 55.04 69.9095 14.8695 5.347756 18 B 90037.76 181 100000.00 0.00 
2015-06-23 54.30 68.8075 14.5075 5.477894 2.65 B 80046.56 365 99866.06 -133.94 
2015-06-24 56.21 67.8735 11.6635 5.404922 2.16 B 70097.39 542 100563.21 697;15 
2015=06=25 51,.80 66.8775 15.0775 5.770806 2;61 B 60099.99 735 98172.99 -2390.22 
2015-06-26 46.79 65.9830 19.1930 6.580622 2.92 B 50133.72 948 94490.64 -3682.35 
2015-06-29 47.05 64.9445 17.8945 7.096230 2.52 B 40159.12 1160 94737.12 246.48 
2015-07-07 47.86 58.8150 10.9550 5.401247 2.03 B 30204.24 1368 -095676.72 939.60 
2015-07-10 537.92 57.3520 -0.5680 5.625309 -0.10 5 109438.80 0 109438.80 13762.08 
STrise 

Value ma20 dif sd rate op cash amount asset diff 
2015=07=10 57.92 57.352 -0.568 5.625309 =0,1 8 109438.8 0 109438.8 13762.08 
$fall 

[1] Value ma20 dif sd rate OP cash amount asset diff 


<0 行 > (或 0- 长 度 的 row.names) 


从 数据 结果 看 ， 我 们 又 赚 到 了 。 


一 共 发 生 了 8 笔 


p= 


尺 功 / 


VYV 


sDat 
GDai 


V 


Cda 
ldai 


te<-as .Da 
te<-as .Da 


te ("2015-07-10") # 结 束 


title<-"300104.S2" 
te ("2015-01-01") # 开 始 


Stock<-aqata[[ 
ta<-stock[da 


titlel]l] 


ta<-ma (cda 


lda 


MMYMMYMMYMMYMMYMMVYV 


ldata<-getMaSd (lda 
buydata<-buyPoint (ldata,2,1) 
selldata<-sellPoin 
bsdata<-merge (buydatas$Value, selldata$Value) 
drawPoint (ldatal,c(1,2)],bsdata,ti 


ta,c(20)) 


日 期 


t (ldata, buydata) 


ta,20, sDate,eDate) 


teArea (sDate, eDate, 360) ] $Close 


tle, sDate,eDate, '1 month') 


# 画 图 


| 
2013-00 


其 中 7 笔 买 入 ，1 笔 卖 出 。 最 后 ， 资 金 剩 余 109438.80 元 ， 赚 了 9438.80 元 ， 收 益 率 为 9.439%。 


anlen 


1]985e 


进行 了 测试 ， 发 现 是 有 机 会 的 ， 那 么 我 再 换 另外 一 支 股票 ， 看 一 下 是 否 有 同样 的 效果 。 我 们 把 刚才 数据 操作 的 过 程 封 装 到 统一 的 quick 函 数 中 ， 就 可 以 快速 验证 均值 回归 在 其 他 肯 


Vn: 
又 元 


在 “了 恐慌 ”的 6 月 份 ， 在 别人 都 锌 套牢 30% 以 上 的 情况 下 ， 我 们 还 有 9% 的 正 收 益 ， 那 应 该 是 


6.1.3 ”量化 选 股 


300104.SZ 


80- 
60- 
OQ 
一 
应 
40- 
20- 
2015-01 2015-02 2015-03 2015-04 
图 6-10 


上 文中 ， 我 们 用 2 只 股票 进行 了 测试 ， 发 现 均值 回归 模型 是 适合 于 股票 交易 的 。 如 果 我 们 利用 模型 对 全 市 场 的 股 


的 收益 。 


那么 ， 接 下 来 我 们 就 根据 均值 回归 的 理论 进行 量化 选 股 。 


2015-05 2015-00 


乐 视 网 的 交易 信号 


多 么 舒心 的 一 件 事 情 啊 ! 


票 进 行 扫 描 ， 应 用 会 产生 更 多 的 交易 信 


Serles 
-二 buy 


-二 ma20 
-三 -Sel] 


2015-07 


号 , 找 


到 
土 


上 吏 多 的 投资 机 会 ， 这 样 我 们 就 能 获得 更 大 


根据 我 们 之 前 的 经 验 ， 当 股价 与 平均 标准 差 的 偏离 越 大 ， 有 可 能 带 来 的 收益 就 越 大 。 那 么 通过 量化 的 手段 ， 在 整个 的 市 场 2700 多 支 股票 中 ， 把 每 天 偏离 最 大 股票 的 找 出 来 进行 交易 ， 就 可 以 有 效 地 分 配 


我 们 的 资金 ， 进 行 更 有 效 的 投资 。 我 们 要 试 一 下 ， 市 场 是 否 是 和 我 们 的 思路 是 一 致 的 。 


对 全 市 场 股票 进行 扫描 ， 首 先 计 算 差 值 、 平 均值 和 平均 标准 差 。 


> sDate<-as.Date ("2015-01-01") # 开始 日 期 
> eDate<-as.Date ("2015-07-10") # 结束 日 期 


# 计算 差 值 、 平 均值 和 平均 标准 差 

> data0<-lapply (data, function (Stock) { 
cdata<-stock[dateArea (sDate, eDate, 360) ] $Close 
ldata<-ma (cdata,c(5,20)) 

getMaSsd (na.omit (ldata) ,20,sDate,eDate) 


+ }) 


# 去 掉 空 数据 
> data0<-data0[!sapply (data0, is.null)] 


# 全 市 场 股票 
> length (data) 
[二 2782 


# 有 效 的 股票 
> length (data0) 
[i] 2697 


# 查看 第 1 只 股票 
> head (data0[[1]]) 


Value ma20 dif sd rate 
2015-01-05 13.23673 12.18613 -1.05059293 0.6556366 -1.60 
2015-01-06 13.03842 12.23778 -0.80064848 0.6021093 -1.33 
2015-01-07 12.79055 12.24810 -0.54244141 0.4754686 -1.14 
2015-01-08 12.36089 12.29975 -0.06114343 0.5130410 -0.12 
2015-01-09 12.46004 12.33651 -0.12352626 0.5150453 -0.24 
2015-01-12 12.20390 12.37163 0.16773131 0.5531618 0.30 


第 一 次 扫描 后 ， 有 2697 支 股票 是 符合 条 件 的 ， 有 85 支 股票 由 于 数据 样本 不 足 被 排除 。 


接 下 来 ， 继 续 对 2697 文 股票 进行 筛选 ， 找 到 符合 要 求 的 买 入 信号 点 。 


# 计算 买 入 信号 
> buys<-lapply (data0, function (stock){ 
十 if (nrow (stock)==0) return (NULL) 
buy<-buyPoint (stock,2,1) 
if (nrow (buy) >0) { 

return (buy) 


} 


+ }) 
# 去 掉 空 数据 
> buys<-buys [1!sapplLly (buys, is.null)] 


查看 有 买 入 信号 的 股票 
length (buys) 
] 1819 


下 


查看 买 入 信号 
ead (buys) 
“000001.S2- 

Value ma20 和 下 sd rate 
2015-06-19 14.63 16.0965 1.4665 0.6620157 2.22 
2015-06-26 13.77 15.7720 2.0020 0.8271793 2.42 
2015-06-29 13.56 15.6840 2.1240 0.9271735 2.29 
2015-07-03 13.07 15.2545 2.1845 1.0434926 2.09 


在 多 支 股票 上 


S$S 000002.S2- 


201 
201 


$S 000004.S2- 


过 (SO 


Value 
15.69 


dif 


dif 
2.031 


201 
201 
201 


5-07-06 
5=07=07 
5-07-08 


26203 
23.43 
2 


13.124 
14.772 
15.043 


$S 000005.S2 


20. 
201 


5-07-06 
5-07-07 


Value 


6.02 1 
5.42 1 


$S 000006.S2 


Va 


2 


lue 


2015-01-19 5.829283 


ma20 dif 
.9600 4.9400 
506059 .05241459 


ma20 


3S 000007.S2 

Value ma20 dif 
2015-02-06 12.47 14.4200 1.9500 
2015-02-09 12.52 14.3270 1.8070 
2015-02-10 12.10 14.1845 2.0845 


通过 计算 发现 ， 有 1819 支 股票 在 这 


0 0 
0 6. 
D0 
3 7 


a: 
2 


sd rate 


.668 0.2644101 2.53 
269% 02074732 280L3 


sd rate 
039D7 LY 21D 


3898795. 2.03 
5421723 20.13 


.4287088 2.03 


sd rate 
81665 2.07 
33008 2.21 


dif 


sd rate 
6.519462 0.6901792 0.26929 2.56 


0.6 
Ds 
0.8 


sd rate 
182860 3.15 
40473 2.43 
484250 2.46 


半年 中 产生 过 买 入 信号 


， 而 我 们 资金 有 限 ， 又 想 让 收益 最 大 化 ， 那 么 


接 下 来 ， 我 们 用 程序 找到 每 日 偏离 最 大 的 股票 。 


# 合 } 


十 data. 
机 


数据 ， 从 1ist 转 型 
> vt ldply (buys,f 


I£ldata. frame 


unction (e) 


{ 


frame (date=index (e), coredata (e)) 


# 选 出 同一 日 rate 最 大 的 股票 ， 做 为 买 入 信号 


可 以 选择 偏离 值 最 大 的 股票 进 4 


> buydatas<-ddply (buydf, . (date), function(row) { 
未 row[row$rate == max (row$rate | 
+ }) 
# 查看 买 入 信号 
> nrow (buydatas) 
[1] 81 
# 查看 买 入 信号 细节 
> head (buydatas) 

.id date Value ma20 dif sd rate 
1 002551.S2 2015-01-05 16.573846 19.565446 2.9916000 0.74591596 4.01 
2: .002450.35 .2015-01-06 18.548809 19;766636, 1.2178275 .0.34008453 3.58 
3 300143.32 2015=01=07 .480000 12.603000 1.1230000 0.32028018 3.5] 
4 300335.Sz 2015-01-08 2.113677 13.13960] :0259238 0.21760484. .4.71 
5 300335.S2 2015-01-09 12.243288 13.043888 0.8005994 0.22940845 3.49 
6 300335.S2 2015-01-12 11.994036 12.941694 0.9476584 0.23168313 4.09 
最 后 ， 我 们 选 出 81 个 买 入 信号 点 ， 基 本 上 每 个 交易 日 都 是 买 入 信号 。 有 了 买 入 信号 ， 接 下 来 找 出 卖 出 信号 。 
# 卖 出 信号 
> selldatas<-data.frame () 
> for(i in 1:nrow(buydatas))f{ 
十 buydata<-buydatas[i,] 
让 if(is.data.frame (buydata)){ 
buydata<-xts (buydata, order .by=as.Date (buydata$date)) 


SE 


+ ldata 


<-data0[ [buydatas .id]] 


十 sell<-sellPoint (lda 


十 半 玉 
十 S 


(nrow (sell) >0) { 
ell<-data. 


frame (Se] 


ta,buydata) 


1, .id=buydatas$ .id,date=index (sell)) 


二 天 六 
[三 | 
J 父 思 。 


号 的 时 间 和 频率 都 是 不 同 ， 


十 selldatas<-rbind(selldatas, sell) 
二 } 

A} 

# 卖 出 信号 去 重 

> selldatas<-unique (selldatas) 

> nrow(selldatas) 

[WS3 

# 查看 买 出 信号 

> head (selldatas) 

Value ma20 dif sd rate .id date op 
20145=01=12 9.232308 18.848908 -0.38340000 0.9051374 -0.42 002551.S2 2015-01-12 5S 
2015-01-08 9.814257 19.729006 -0.08525126 0.3782955 -0.23 002450.S2 2015-01-08 5S 
2015-01-28 1.210000 11.019500 -0.19050000 0.7781848 -0.24 300143.S2 2015-01-28 5 
2015-01-21 13.190448 12.899321 -0.29112706 0.3871871 -0.75 300335.S2 2015-01-21 5S 
2015-01-213 7.140000 6.989500 -0.15050000 0.2007652 -0.75 002505.S2 2015-01-21 5S 
2015-01-22 5.561561 5.490668 -0.07089242 0.2127939 -0.33 600077.SH 2015-01-22 5S 
通过 计算 ， 一 共有 33 个 买 出 信号 点 。 最 后 ， 合 并 买 入 信号 和 卖 出 信号 ， 并 计算 收益 。 
> puydatas$op<-'B' # 买 入 标志 
> selldatasSop<-'S' # 卖 出 标志 
> sdatas<-rbind (buydatas, selldatas) # 合并 数据 
> row.names (sdatas) <-1:nrow (sdatas) # 重 设 行 号 
> sdatas<-sdatas [order (sdatas$ .id),] # 按 股票 代码 排序 
# 查看 合并 的 信号 
> head (sdatas) 

.id date Value ma20 dif sd rate op 
36 000002.S2 2015-03-05 11.90 12.56800 0.668000 0.26441011 2.53 B 
100 000002.S2 2015-03-16 12.49 12.38050 -0.109500 0.23702768 -0.46 5S 
58 000553.S2 2015-05-06 14.35 15.50882 1.158824 0.38429912 3.02 B 
110 000553.S2 2015-05-21 16.57 15.18903 -1.380972 0.55647152 -2.48 5S 
26 000725.S2 2015-02-09 2.80 3.11400 0.314000 0.07934585 3.96 B 
94 000725.S2 2015-02-16 3.09 3.06500 -0.025000 0.08182388 -0.31 5S 
最 后 ， 按 照 股 票 进 行 分 组 ， 分 别 计算 个 股 的 收益 
# 计算 个 股 的 收益 
> slList<-splLit(sdqatas[-1],sdqatasS$.idl) # 按 股票 代码 分 组 
> results<-lapply (slist,trade) 
# 查看 信号 的 股票 
> names (results) 
[1] "000002.S2" "000553.S2" "000725.S2" "000786.S2" "000826.S2" "002240.S2" "002450.S27 
E81 O02496.:S52. O02505.:82 "O002544%02. O0255L..02™ "O02646.82" "O002652,.82" "300L43:S2Y 
2 1300335.920 010300359.9240 "300380.S2Z"™ "300397 7552 "300439,.SZ™" "300440'::S2" 3004442927 
22] "600030.SH" "600038.SH" "600077.SH" "600168.SH" "600199.SH" "600213.SH" "600375.SH" 
[29] "600490.SH" "600536.SH" "600656.SH" "600733.SH" "600890.SH" "601179.SH" "601186.SH" 
[36]"601628.SH" "601633.SH" "601939.SH" "603019.SH" 


这 样 我 们 就 可 以 把 钱 分 散 投 资 


到 不 同 的 股票 上 ， 同 时 分 散 风险 。 如 果 


本 三 | 三 且 


六 疙 | 互 写 I 听 


同一 天 出 现 


我 们 查看 万 科 A (000002) 的 股票 。 


> results[['000002.SZz']]$ticks 

date Value ma20 dif sd rate op cash amount asset diff 
36 2015=03-=05 11.90 12.5680 0.6680 0.2644101 2.53 B 90004.0 840 100000.0 0.0 
100 2015=03=16 12.49 12.,.3805 =0.,1095 0.2370277 =0.46 3 100495.6 0 100495.6 495.6 


通过 优化 的 规则 设计 ， 一 共有 2 笔 交 易 ， 赚 了 495 元 。 如 要 我 们 没有 进行 算法 优化 ， 一 直 交 易 万 科 A， 那 么 会 发 生 3 笔 交易 ， 我 们 可 以 赚 955.95 元 。 


> quick('000002.5SZz"', sDate,eDate) $ticks 

Value ma20 dif sd rate op cash amount asset diff 
2015-03-05 11.90 12.5680 0.6680 0.2644101 2.53 B 90004.00 840 100000.0 0.00 
2015-03-06 11.94 12.5090 0.5690 0.2674732 2.13 B 80010.22 1677 100033.6 33.60 
2015-03-16 12.49 12.3805 -0.1095 0.2370277 -0.46 S 100955.95 0 L00955:9 922535 


本 节 到 此 就 要 结束 了 ! 但 其 实 还 有 很 多 的 事情 要 做 ， 比 如 对 模型 参数 的 优化 ， 用 10 日 均线 代 蔡 20 日 均线 ， 用 3 倍 标准 差 偏 移 代 蔡 2 倍 标准 差 偏 移 ， 对 样本 进行 正 态 分 布 的 检验 ， 结 合 其 他 趋势 类 模型 共同 
产生 信号 等 ， 这 些 就 不 是 一 章 内 容 可 以 解决 的 事情 了 。 后 续 大 家 可 以 观 注 我 的 博客 (http://fens.me) ， 发 现 更 多 不 一 样 的 策略 。 


本 节 从 均值 回归 的 理论 的 介绍 开始 ， 到 市 场 特征 检验 ， 再 到 数学 公式 ，R 语 言 建 模 ， 历 史 数 据 回 测 ， 最 后 找到 投资 机 会 ， 是 一 套 完整 的 从 理论 到 实践 的 学 习 方法 。 虽 然 困难 重重 ， 但 作为 有 理想 的 极 客 ， 
我 们 是 有 能 力 来 克服 这 些 困 难 的 。 


本 节 同 时 用 到 了 计算 机 、 人 金融、 数学 、 统 计 等 多 学 科 知识 的 结合 ， 我 认为 这 是 技术 复合 人 才 未 来 的 发 展 方向 。 如 果 说 过 去 10 年 是 房地产 的 黄金 10 年 ， 那 么 未 来 的 10 年 将 是 金融 的 黄金 10 年 。 当 我 们 IT 人 
掌握 了 足够 的 金融 知识 ， 一 定 会 有 能 力 去 金融 市 场 抢占 一 席 之 地 的 。 


抓 住 机 会 ! 程序 员 ， 加 油 ! 


如 何 使 用 R 语 言 实现 配对 交易 模型 ? 


R 僻 言 构 到 量化 模型 


http://blog.fens.me/finance-pairs-trading/ 


散户 每 天 都 在 经 历 中 国 股 市 的 上 蹄 下 跳 ， 赚 钱 是 运气 ， 赔 钱 是 常态 。 那 么 是 否 有 方法 可 以 让 赚钱 变 成 常态 呢 ? 


我 们 可 以 通过 “统计 套利 ”的 方法 ， 发 现 市 场 的 无 效 性 。 配 对 人 交易 就 是 统计 套利 策略 的 一 种 ， 通 过 对 冲 掉 绝 大 部 分 的 市 场 风险 ， 抓 住 套利 机 会 ， 积 累 小 僵 利 汇聚 大 收益 。 


配对 交易 (Pairs Trading) 的 理念 最 早 来 源 于 上 世纪 20 年 代 华尔街 传奇 交易 员 Jesse Livermore 的 姐妹 股票 对 交易 策略 。 配 对 交易 的 基本 原理 是 找到 两 个 相关 性 较 高 、 具 备 均衡 天 系 的 股票 或 其 他 金融 
产品 ， 做 空 近期 相对 强势 的 金融 产品 ， 同 时 做 多 相对 弱势 金融 产品 ， 等 待 两 者 价格 重 返 均衡 值 时 进行 平 仑 ， 赚 取 两 者 的 价差 变动 的 收益 。 


假设 两 个 金融 产品 在 未 来 的 时 期 会 保持 良好 的 均衡 关系 ， 一 旦 两 者 之 间 的 价格 走势 出 现 背 离 ， 同 时 这 种 背离 在 未 来 会 被 进行 修复 ， 那 么 就 可 能 产生 套利 的 机 会 。 对 于 配对 交易 来 说， 就 是 找到 这 样 的 机 
会 ， 进 行 统计 套利 。 


1. 配 对 交易 的 特点 


配对 交易 与 传统 股票 交易 最 大 的 不 同 之 处 在 于 ， 它 的 投资 标的 是 两 只 股票 的 价差 ， 是 一 种 相对 价值 而 非 绝 对 价值 。 由 于 它 在 股票 多 头 和 空头 方 同时 建仓 ， 对 冲 掉 了 绝 大 部 分 的 市 场 风险 ， 所 以 它 是 一 种 
市 场 的 中 性 策略 。 无 论 大 盘 上 涨 还 是 下 跌 ， 配 对 交易 策略 收益 都 是 相对 平稳 的 ， 与 大 盘 走 势 的 相关 性 很 低 。 


在 市 场 无 趋势 性 机 会 时 ， 可 以 通过 配对 交易 避免 股市 系统 风险 ， 获 取 Alpha 绝 对 收益 。 趋 势 性 的 交易 策略 可 以 参考 《R 的 极 客 理 想 一 一 高 级 开发 篇 》 中 2.3 节 的 内 容 。 
2. 配 对 交易 操作 方法 


1) 组 合 筛选 : 在 市 场 上 寻找 用 于 配对 的 金融 产品 或 者 组 合 ， 检 查 历史 价格 的 走势 ， 判 断 是 否 可 以 用 来 进行 配对 。 主 要 用 下 面 几 个 指标 来 筛选 配对 组 合 : 相关 系数 、 模 型 计算 的 均值 回复 速度 、 协 整 检 
验 、 基 本 面 因 素 等 。 通 过 这 些 指标 来 寻找 出 具有 稳定 相关 关系 的 组 合 。 


2) 风险 衡量 和 动态 组 合 的 构建 : 计算 配对 组 合 各 自 的 预期 收益 、 预 期 风险 、 交 易 成 本 ; 判断 两 个 组 合 之 间 的 价差 服从 何 种 分 布 ;， 判断 是 具有 长 期 均衡 特性 还 是 短期 均衡 特性 ; 价差 发 生 跳跃 的 频率 等 。 
3) 确定 交易 规则 : 根据 价差 的 特性 ， 确 定 交易 的 频率 (高 频 交易 还 是 低频 交易 ) ， 交 易 的 触发 条 件 和 平 仓 规则 等 。 

4) 执行 交易 及 风险 控制 : 除了 按照 交易 规则 执行 外 ， 还 必须 动态 跟踪 价差 走势 ， 如 果 发 现 突变 ， 应 该 及 时 调整 套利 模式 和 交易 频率 。 

3. 配 对 交易 缺点 

* 统计 套利 的 规则 都 是 基于 历史 数据 计算 的 ， 但 历史 不 能 代表 未 来 ， 当 市 场 发 生变 化 模型 也 会 失效 。 


:市场 对 价格 进行 修复 的 时 间 难 以 准确 判断 ， 只 能 根据 历史 大 致 估计 。 如 果 回 归 的 时 间 过 长 ， 对 套利 者 的 资金 使 用 成 本 是 个 考验 ， 并 有 可 能 导致 套利 失败 。 
6.3.2 ”配对 交易 的 模型 


根据 配对 交易 的 原理 ， 我 们 就 可 以 自己 设计 配对 交易 的 模型 了 。 首 先 ， 需 要 对 配对 交易 涉及 的 指标 进行 量化 ， 比 如 如 何 选择 不 同 的 两 个 具备 均衡 关系 金融 产品 ， 什 么 时 候 做 多 ， 什 么 时 候 做 空 ， 什 么 时 
候 平 仓 等 。 

本 文 所 使 用 的 系统 环境 : 

* Win1064bit 


* R: 3.2.3 x86_64-w64-mingew32/x64 b4bit 


根据 概念 ， 我 们 生成 两 个 虚拟 的 金融 产品 X、Y， 包 括 时 间 和 价格 字段 。 让 X 和 Y 的 两 个 产品 都 价格 符合 正 态 分 布 ， 生 成 100 个 日 期 的 数据 。 由 于 是 测试 程序 ， 日 期 字段 包括 了 自然 日 ， 暂 时 理解 为 连续 的 
日 期 。 


R 语 言 实现 的 代码 如 下 : 


> set.seed(1) # 设 置 随机 种 子 
> dates<-as.Date('2010-01-01')+1:100 ” #100 个 日 期 
> x<-round (rnorm (100, 50, 40) ,2) # 随 机 生成 Xx 产品，100 个 正 态 分 析 的 收盘 价 
> y<-round (rnorm (100, 50, 40) , 2) # 随 机 生成 Y 产 品 ，100 个 正 态 分 析 的 收盘 价 
> df<-data.frame (dates, x,y) 
> head (df, 20) 
dates x y 
1 2010-01-02 24.94 25.19 
2 2010-01-03 57.35 51.68 
3 2010-01-04 16.57 13.56 
4 2010-01-05 113.81 56.32 
5 2010-01-06 63.18 23.82 
6 2010-01-07 17.18 120.69 
7 2010-01-08 69.50 78.67 
8 2010-01-09 79.53 86.41 
9 2010-01-10 73.03 65.37 
10 2010-01-11 37.78 117.29 
11 2010-01-12 110.47 24.57 
12 2010-01-13 65.59 31.53 
13 2010-01-14 25.15 107.29 
14 2010-01-15 -38.59 23.97 
15 2010-01-16 95.00 41.70 
16 2010-01-17 48.20 34.29 
17 2010-01-18 49.35 37.20 
18 2010-01-19 87.75 38.84 
19 2010-01-20 82.85 69.77 
20 2010-01-21 73.76 42.91 


把 数据 进行 可 视 化 ， 可 以 更 直观 地 理解 数据 本 身 。 


# 加 载 R 语 言 类 库 
library (ggplot2) 
scales) 
reshape2) 


> 
> library 
> library 


( 
( 


# 数据 转型 
> df2<-melt (df,c('dates')) 


# 画图 

> g<-ggplot (data=df2,aes (x=dates,y=value, colour=variable)) 

> g<-gtgeom line () 

> g<-gtscale x date(date breaks = "1 week",date labels="'%m-%d') 
> g<-g+labs (x="'date',y="'Price') 

> 9 


图 6-18 中 ，X 轴 为 时 间 ，Y 轴 是 价格 ， 红 色 线 为 X 的 产品 的 价格 ， 蓝 色 线 为 Y 产 品 的 价格 。 我 们 可 以 直观 的 看 出 ，X、Y 两 个 产品 无 任何 关系 。 


150. 


01-04 01-11 01-18 01-25 02-01 


02-08 02-15 02-22 03-01 03-08 03-15 03-22 03-29 04-05 04-12 
date 


图 6-18 X 和 Y 的 两 个 价格 折线 图 


根据 配对 交易 的 假设 条 件 ， 如 果 两 个 金融 产品 的 价差 是 收敛 的 ， 接 下 来 验证 价差 的 收敛 性 。 我 们 用 X 的 产品 价格 减 去 Y 产 品 的 价格 ， 当 差 值 为 正 的 时 候 ， 我 们 认为 X 的 价格 过 高 ， 则 做 空 X， 同 时 Y 的 价格 


过 低 ， 则 做 多 Y 


为 了 让 差异 更 明显 ， 我 们 定义 的 计算 公式 如 下 : 


价差 Z=X 价 格 -了 价格 


Z>10 时 ， 做 空 X， 做 多 Y; Z<0 时 ， 平 仓 


Z<-10 时 ， 做 多 X， 做 空 Y; Z>0 时 ， 平 仓 


计算 差价 ， 然 后 计算 交易 统计 。 


# 计算 差价 

> df$diff<-df$x-df$y 

# 找到 差价 大 于 10 时 的 点 

> idx<-which (df$dif F>10) 

> idx<-idx[-which (diff (idx)==1)—1] 


VY 


打印 差价 的 索引 值 
idx 


; 当 差 值 为 负 的 时 候 ， 我 们 认为 X 的 价格 过 低 ， 则 做 多 X， 同 时 Y 的 价格 过 高 ， 则 做 空 Y; 当 差 值 为 0 时 ， 价 格 被 市 场所 修复 ， 则 全 部 平 仓 。 


4 11 15 23 25 30 34 36 38 43 48 53 55 59 61 68 176 81 83 86 88 92 95 98 


[二] 


接 下 来 ,我 们 进 


# 打印 前 20 个 数据 


> head (df, 20) 

dates 入 y Gift 
1 2010-01-02 24.94 25.19 =023 
2 2010=01=03 57.35 531.68 5.67 
3 2010-01-04 6.57 13.56 3301 
4 2010-01-05 113.81 56.32 57.49 
5 2010=01=06 63.18 23,.82 39.36 
6 2010-01-07 18 120%569 =103.51 
7 2010-01-08 69.50 78.67 = 
8 2010-01-09 79.53 86.41 -6.88 
9 2010=01=10 73.03 6653537 7.66 
10 2010=01=11. .37525718. L1729 二 /9.51 
11 2010-01-12 110.47 24.57 85.90 
12 2010=01=13 6659 31,.53 34.06 
13 2010-01-14 25.15 107.29 -82.14 
14 2010=01=15 =38,.59 23;,97 =62,36 
15 2010-01-16 95.00 41.70 53.30 
16 2010-01-17 48.20 34.29 3 
17 2010=01=18 49.35 37.20 2.515 
18 2010-01-19 87.75 38.84 48.9 
19 2010-01-20 82.85 69.77 3.08 
20 2010-01-21 73.76 42.91 30 .85 


# 当 差 价 大 于 10 时 ， 做 空 X， 当 差价 小 于 0 时 ， 
# 第 4 行 做 空 ， 第 6 行 平 仓 

> xpro Ee df$x[4] -df$x[6] ;xprof it 
[1] 96.63 


# 当 差 价 大 于 10 时 ， 做 多 Y; 当 差 价 小 于 0 时 ， 
# 第 4 行 做 空 第 6 行 平 仓 

> ypro Ee df$y[6] =df$y[4] ;yprof it 
[1] 64.37 


从 交易 结果 来 看 ， 我 们 第 一 笔 配对 交易 就 是 赚钱 的 。 


这 是 为 什么 呢 ? 


根据 配对 交易 的 假设 条 件 ， 如 果 两 个 金融 产品 的 价差 是 收敛 的 ， 
逆 市 中 的 投资 机 会 


参考 本 书 6.1 节 均值 回归 


画 出 X、Y 的 价差 图 ， 我 们 可 以 明显 的 看 出 ， 


> plot (df$diff, type="1") 


行 模拟 交易 ， 取 第 一 个 索引 值 的 点 ， 在 2010-01-04 时 做 空 X， 做 多 Y 


平 仓 。 


价差 一 直 围 绕 着 0 上 下 波动 ， 


。 当 差价 小 于 0， 即 在 2010-01-06 时 ， 进 行 平 仓 。 


通过 协 整 性 检验 的 方法 ， 我 们 可 验证 数据 的 收敛 性 。 那 么 如 果 数 据 是 收敛 的 ， 它 还 会 具备 均值 回归 的 特性 。 关 于 均值 回归 模型 的 使 用 ， 


这 是 明显 收敛 的 ， 同 时 符合 均值 回归 的 特性 。 


df$diff 


100 


100 


0 20 40 60 80 100 
Index 


图 6-19 ”价差 折线 图 


这 就 是 市 场 的 规则 ， 通 过 配对 交易 的 方法 ， 我 们 找到 市 场 的 无 效 性 ， 从 而 赚 取 套利 的 收益 。 


6.3.3 ”用 R 语 言 实现 配对 交易 


看 


到 上 面 的 赚钱 方法 ， 也 许 大 家 会 很 兴奋 。 但 是 大 部 分 市 场 的 数据 都 不 会 像 我 们 的 假设 条 件 一 样 ， 轻 而 易 举 就 能 实现 赚钱 的 目标 。 我 们 可 以 用 计算 机 程序 进行 全 市 场 的 扫描 发 现 交易 机 会 ， 当 然 你 也 可 


以 通过 肉眼 的 方式 来 观察 。 


市 场 上 有 一 些 天 生 就 具备 均衡 关系 的 金融 产品 ， 可 以 作为 我 们 套利 的 入 手 对 象 。 


. 股票 类 : 同行 业 、 市 值 和 基本 面相 似 的 个 股 ， 比 如 中 国 银 行 (601988) 和 农业 银行 (601288) 。 


" 基金 类 : 以 相同 指数 作为 标的 的 不 同 基金 ， 比 如 证 券 B (150172) 和 券商 B (150201) 。 


. 期 货 类 : 同一 期 货品 种 的 不 同 合约 ， 比 如 铜 (cu1605) 和 铜 (cu1606) 。 


` 混合 类 : 跨 市 场 为 标的 的 金融 产品 ， 比 如 沪 深 300 指 数 、IF 的 期 货 合约 。 


接 下 来 ， 以 相同 品种 不 同 合约 的 期 货 为 例 ， 我 们 把 配对 交易 用 在 cu1605 和 cu1606 的 两 个 合约 上 ， 试 试 效果 如 何 。 由 于 期 货 是 支持 T+0 日 内 的 交易 的 ， 而 对 于 套利 的 操作 ， 通 常 都 不 会 持仓 过 夜 ， 所 以 我 
们 在 尽量 短 的 周期 上 进行 操作 ， 而 且 日 内 平 仓 。 下 面 我 将 以 1 分 钟 作为 交易 周期 。 


1. 数 据 准备 


R 语 言 本 身 提供 了 丰富 的 金融 函数 工具 包 ， 时 间 序 列 包 zoo 和 xts、 指 标 计算 包 TTR、 可 视 包 ggplot2 等 ， 我 们 会 一 起 使 用 这 些 工 具 包 来 完成 建 模 、 计 算 和 可 视 化 的 工作 。 


本 节 用 到 的 数据 ， 是 铜 的 1 分 钟 线 的 数据 ， 从 2016 年 日 2 月 1 日 到 2016 年 日 2 月 29 日 日 盘 的 交易 数据 ， 以 CSV 格 式 保 存 到 本 地 文件 cu1605.csv 和 cu1606.csv。 商 品 期 货 的 日 盘 交 易 时 间 分 为 3 段 : 09: 


00: 00-10: 14: 59，10: 30: 00-11: 29: 59，13: 30: 00-14: 59: 59。 当 前 测试 不 考虑 夜 盘 的 数据 。 
数据 格式 如 下 : 
2016-02-01 09:00:00,35870,35900,35860,35880 


201 
201] 


6-02-01 09:01:00,35890,35890,35860,35870 
6-02-01 09:02:00,35870,35870,35860,35870 


201 
201] 


6-02-01 09:03:00,35870,35900,35870,35900 
6-02-01 09:04:00,35900,35900,35870,35870 


201 
201 


6-02-01 09:05:00,35870,35880,35860,35870 
6-02-01 09:06:00,35880,35880,35860,35870 


一 共 5 列 : 


第 1 列 : 交易 时 间 ，date，2016-02-0109: 00: 00。 
第 2 列 : 开盘 价 ，Open，35870。 
第 3 列 : 最 高 价 ，High，35900。 
第 4 列 : 最 低 价 ，Low，35860。 


第 5 列 : 收盘 价 ，Close，35880。 


通过 R 语 言 加 载 铜 的 1 分 钟 线 数据 ， 因 为 我 们 进行 日 内 交易 ， 所 以 在 加 载 时 就 进行 了 转换 ， 按 日 期 进行 分 组 ， 生 成 R 语 言 的 list 对 象 ， 同 时 把 每 日 的 data.frame 类 型 对 象 转 成 XTS 时 间 序 列 类 型 对 象 ， 方便 


后 续 的 数据 处 理 。 
# 加 载 工 具 包 
> library (xts) 
> library (TTR) 
# 读 取 CSV 数 据 文件 
> freaq<-function (f ile)f{ 
十 df<-read.table (f ile=f ile, header=FALSE, sep = ",", na.strings = "NULL") # 读 文件 
+ names (df) <-c ("date", "Open", "High", "Low", "Close") # 设置 列 名 
+ dl<-split (df, format (as.POSIXct (df$date), '%$Y-%m-%d')) # 按 日 期 分 组 
十 
+ lapply (dl, function (item) { # 换 成 xts 类 型 数据 
十 xts (item[-1],order.by = as.POSIXct (item$date)) 
证 }) 
书 寺 
# 加 载 数据 
> cul605<-read (f ile='cul605.csv') 
> cul606<-read (f ile='cul606.csv') 


# 查看 数据 类 型 
> class (cul605) 
[ 亚 ] "St 


# 查看 数据 的 日 期 索引 值 
> names (cul605) 

] "2016-02-01" "2016-02-02" "2016-02-03" "2016-02-04" "2016-02-05" 
] 

] 

] 


W2016=02=195” "2016=02=16” "2016=02=17™ "2016=02=18" ”2016=02=19" 
W2016=02=22" "2016=02=23™ ”2016-=02=24" “2016=02=-25" %201:6=02=26" 
"2016=02=29"” 


mr 一 
N 


[16 


查看 每 日 的 数据 量 
nrow (cul605[[1]1) 
| 


| 儿 28 


# 
> 
[ 
# 查看 cu1605 合 约 的 数据 

> head (cu1605[['2016-02-017]]) 

Open High Low Close 
2016-02-01 09:00:00 35870 35900 35860 35880 
2016=02=01 09:01:00 35890 35890 35860 35870 
2016-02-01 09:02:00 35870 35870 35860 35870 
2016=02=0] 09:03:00 35870 35900 35870. 35900 
2016-02-01 09:04:00 35900 35900 35870 35870 
2016-02-01 09:05:00 35870 35880 35860 35870 


把 数据 准备 好 后 ， 我 们 就 可 以 来 建立 模型 了 。 


2. 配 对 交易 模型 


以 2016 年 2 月 1 日 为 例 进行 交易 ， 以 1 分 钟 线 的 close 价 格 来 计算 cu1605 和 cu1606 两 个 合约 的 价差 。 下 面 我 们 对 数据 进行 操作 ， 合 并 2 个 合约 在 2016 年 2 月 1 日 的 数据 ， 并 对 空 值 进行 处 理 ， 
个 合约 的 价差 。 


# 合并 数据 
> xdf<-merge (cu1605[['2016-02-01']]$Close, cul606[['2016-02-01']]$Close) 
> names (xdf) <-c ('x1', 'x2') 


# 用 前 值 蔡 换 空 值 
> xdf<-na.1locf (xdf) 


# 计算 价差 
> xdfS$diff<-xdf$xl-xdfS$x2 


# 打印 前 20 行 数据 
> head (xdf, 20) 
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数据 解释 : 

. x1 列 : 第 一 腿 ， 对 应 cu1605 合 约 。 
. x2 列 : 第 二 腿 ， 对 应 cu1606 合 约 。 
. diff 列 : cu1605-cu1606。 


从 价差 的 结果 看 ， 每 1 分 钟 cu1605 合 约 都 小 于 cu1606 合 约 ， 从 -110 到 -20 价 差 不 等 ， 并 且 以 -63 为 均值 上 下 反复 震荡 。 


# 计算 价差 范围 
> range (xdf$diff) 
[1 =110. <20 


# 计算 价差 均值 
> mean (xdfS$gdiff) 
[1] -63.90135 


# 画 出 价差 分 布 柱状 图 
> hist (xdf$diff,10) 


画 出 价差 分 布 柱状 图 ， 如 图 6-20 所 示 。 


Histogram of xdf$diff 
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图 6-20 ”差分 布 柱状 图 
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我 们 假设 以 -63 为 均值 回归 点 ， 当 差 值 为 大 于 -45 的 时 候 ， 认 为 X 的 价格 过 高 做 空 X， 同 时 Y 的 价格 过 低 做 多 Y; 当 差 值 小 于 -75 的 时 候 ， 认 为 X 的 价格 过 低 做 多 X， 同 时 Y 的 价格 过 高 做 空 Y; 当 差 值 为 -63 
价格 被 市 场所 修复 ， 则 全 部 平 仓 。 以 cu1605 和 cu1606 的 两 个 合约 按照 1 : 1 持仓 进行 配 比 ，1 手 多 单 对 1 手 空 单 。 


首先 ， 加 载 我 自己 开发 的 ， 用 于 配对 交易 的 R 软 件 包 DanQuant， 由 于 还 是 测试 版 本 ， 所 以 只 在 github 上 进行 了 发 布 。 


> library (devtools) 
> install github('bsspirit/DanQuant') 
> library (DanQuant) 


定义 模型 指标 ， 计 算 价值 列 为 diff， 均 值 回归 列 为 mid， 最 大 阅 值 列 为 top， 最 小 立 值 列 为 bottom.。 


# 定义 模型 指标 
> target.pair<-function (xdf){ 


十 xdfS$Sdiff<-xdf$xl1-xdf$x2 # 差 值 

十 xdf$mid<- -63 # 均 值 回 归 点 
+ xdqfStop<- -45 # 最 大 阔 值 

+ xqfSbottom<- -75 # 最 小 阐 值 

下 return (xdf) 


完成 指标 的 定义 后 ， 创 建 配对 交易 模型 。 


# 定义 策略 模型 


> mod.pair<-function (tXTS,params) { 


十 # 基 本 模型 

十 ops<-model .boll (txXTS) 

+ # 信 号 处 理 

+ ops<-model .filter.pingLatest (ops) 果 留 最 近 的 平 仓 点 
+ ops<-model.f ilter.pingStrat (ops) 去 掉 平 仓 开始 小 于 开 仓 的 点 
+ ops<-model.f ilter.closeOut (ops, txXTS, 1) 日 内 平 仓 

十 ops<-moqe1.filter.stopProf it.pair (ops, tXTS, 500, params)  # 止 僵 止 损 
十 ops<-model .f ilter.posPeriod (ops, 40) 持仓 时 间 

+ ops<-model .filter.contineKai (ops) 连续 开 仓 

十 ops<-moqe1.filter.continePing(ops) 连续 平 仓 

十 return (ops) 

+ ] 


接 下 来 ， 对 配对 的 数据 集 进行 回 测 ， 产 生 交 易 信号 后 ， 模 拟 交 易 输出 清单 ， 并 可 视 化 交易 结果 。 


初始 化 交易 品种 
params<-newParams ('cu1605', 'cu1606', '2016-02-03') 


执行 交易 模型 
tXTS<-target .pair (xdf 


产生 交易 信号 
ops<-mod.pair (txXTS, params) 


VY 


VY 


VyV# 


产生 的 交易 信号 如 下 所 示 : 


> ops 
date X] x2 diff mid top bottom op 
21 2016-02-01 09:00:00 35880 35900 -20 -63 -45 一 SS 
1 2016-02-01 09:25:00 35740 35810 -70 -63 -45 = .PB 
22 2016=02-0 09:40:00. 35690 35730, -40 =63.=45 ~15. .ks 
2 2206-02-0. 0947700 335700 .337770 0 =63 =45 一/ 
3 2016502—0L 十 00208208.35629038779 980° -63 =45 -75 kb 
5 2016-02-01 10:01:00 35710 35760 -50 -63 -45 -19 BS 
23 2016-02-01 10:02:00 35710 35750 -40 -63 -45 二 了 发 
了 06=U2=D L00700 .356830 35750" 0634 =/5 .pb 
14 2016-02-01 10:37:00 35720 35800 -80 -63 -45 715. kb 
6 2016=02=0 0:42:00 35740 35790 -50 -63 -45 = BS 
15. 2016-02-01 T1720%00 335700 35780° -=80.=63 =45 "15 kb 
7 2016-02-01 11:21:00 35710 35750 -40 -63 -45 -75; BS 
24 2016-02-01 11:21:00 35710 35750 -40 -63 -45 7D. ks 
4 2016-02-01 11l:23700 35690 35760. =70 一 63.=45 =75. Db 
16.2016=02-01 L1900 35690. 3571710. "~80 二 63 =45 = 
8- 2016-02-D1 T33600 .35660 35720 260 =63 -45 -175s 
7 2016-02-01 13:45:00 35660 35740 -80 -63 -45 -1/5 kb 
9 2016=02-01 1 34670D0 35670.35730, =60 =63 =45 -35.88 
B2016702-0] L352<00 35650..35730. 一 8U -63 -45 -15 kb 
0 2016=02=01 1353:00 35650 35710" =60.=63 =45 -oS 
9 2016=02=0} L356700 35640° 35720 <=80 =63 =45 =75. kK 
1 2016-02-01 14:49:00 35600 35660 -60 -63 -45 ~/5. PS 
20-2016=02-04 14s52x00 35610 35700 -=90 ~63.545 -75 kb 
12 201€6~02=01 14:58*:00. 35610..35690 =80 -63 =45 =15. BS 
数据 解释 : 


“ date 列 : 交易 时 间 。 

. x1 列 : 第 一 腿 ， 对 应 cu1605 合 约 。 
. x2 列 : 第 二 腿 ， 对 应 cu1606 合 约 。 
:di 任 列 : cu1605-cu1606 。 

“ mid 列 : 均值 回归 点 。 

“ top 列 : 最 大 靖 值 。 


.bottom 列 : 最 小 阅 值 。 


ks: 开 仓 ， 做 空 ( 卖 ) ， 对 应 反 向 操作 为 pb。 
“kb: 开 仓 ， 做 多 ( 买 ) ， 对 应 反 向 操作 为 ps。 


. ps: 平 仓 ， 做 室 ( 卖 ) ， 对 应 反 向 操作 为 kb。 


. pb: 平 仓 ， 做 多 《 买 ) ， 对 应 反 向 操作 为 Ks。 
一 共 出 现 了 24 个 交易 信号 ， 我 们 进行 的 是 配对 交易 ， 所 以 当 出 现 ks ( 开 仓 做 空 ) 信号 时 ， 实 际 上 会 进行 2 笔 操 作 ， 开 仓 做 空 第 一 腿 ， 开 仓 做 多 第 二 腿 。 


接 下 来 ， 进 行 回 测 ， 计 算出 交易 清单 。 


# 计算 交易 信号 
> sigs<-backtest.signal (tXTS, ops) 
# 回 测 ， 并 生成 交易 清单 
> report<-backtest .pair (sigs,params) 
# 打印 回 测报 告 
> report 
$day 
FL] O602=03" 
$capital 
[1] 2e+05 
$cash 
[1] 201417.8 
SX1 

Code op price pos fee value margin balance cash 
2016=02-01 09:00%00. “cul605 ks 35880 1 8.9700 179400 26910.0 NA 173081.0 
2016~=02=01" 09:25:00, cul605-Bb 35740 0 8.9350 0 0;30 700 173748.1 
20416=-02=-01 097740200 cul605 ks 35690 1 ,89225 .78450 26767%53 NA 173437.7 
2016-02=01 09:47:00 cuLl605 PB 33700 0.8.9230 0 0.0 “50 2333 和 .9 
2016-02-01 10:00:00 cul605 kb 35690 1 8.9225 178450 26767.5 NA 173552.0 
2016-02=01 L801:00 “eal605 pS 35710 0 859275 0 0.0 00 173574.2 
2016-02=01 10:02:00" ©uL605 ks 35710 1 B9275. 780550.20782.5 NA 173651.3 
2016=02-01 T00700. -cul605 Pb. 35680 0 8.9200 0 0.0 50 173753.4 
2016-02=01. 10:37500, cal605 kb 35720 L89300 ,178600" 2679030 NA 173758.1 
2016=02-01 10:427:00" “Sul605 Bs 35740 0 .8.9350 0 0 0 .了 工 J378U52 
2016-02=01 11:20:00 ‘eul605 kb 35700 1:8.9250. 178500. 20677550 NA 173887.3 
2016-02-01 21300. -CuL605 ps .35710 ek 0 0.0 50 173859.4 
2016=02=0 215001 entle05 ks 35710 二 NA 174044.1 
2016-02-0] 22320606， cule05 pp 35690 0589225 0 0.0 00 174096.2 
2016=02=01 :29:00. wul605 kb 35690 1 8.9225 178450 26767.5 NA 174173.3 
2016=02=01 13:36:00, Cole05 Bs 35660 0 8.9150 0 ;50 -150 173945.5 
2016-=02-01 13:45:00, cul605 kb. 35660 1 8.9150 .78300 26745.0 NA 174260 .] 
2016-02=01 13*46:00 Cutle05 ps 35670 0 .91 375 9 0.0 50 174232.3 
2016=02-01 13%52:00 cul605 kb 35650 1 .8:9L290"1718290 26:/37.»5 NA 174331.9 
2016-02=507 "L135m3:00 ealL605 Ps.35650 0: 9725 0 0.0 0 T174254, 
2016-02-01 13:56:00 cul605 kb 35640 4 B3400 78200 -2673049 NA 174403.8 
2016-02-01 14:49:00 cul605 ps 35600 0 8.9000 0 Qld 200 T741259 
2016-02-01 14:52:00 cul605 kb 35610 L188.9025 178050 2670.735 NA 174490.6 
2016=-02=-01. 44:58:00 cule605 Bs 35610 0 879025 0 0.0 0 174405.3 
$x2 

Code op price pos fee value margin balance cash 
2016-02=01 09:00:00 cule06 kb 35900 1 89750 L79500 .26925.0 NA 146147.1 
2016=02=01 ,09:25700. eul606 Bs- 35810 0 879525 0 多 -450 200214.2 
2016-02-01 09:40:00 cul606 kb 35730 T°8.9325 178650 26797.5 NA 146631.3 
2016=02=01 0947500 cul606 :Bs 35770 0 8.9425 0 OsQ 200 200328.4 
2016-02-01 10:00:00 cul606€ ks 35770 .8.9425 二 76888020682 NA 146715.6 
2016-02-01 10:01:00 cul606 pb 35760 0 8.9400 0 0.0 50 200442.7 
2016-02-04 10*02700 “eul606 kB 35750 1 S93 T70750 2681255 NA 146829.8 
2016-02-0T L1007x00 SuLte06 Bs 5750 0 8:9373 0 0.0 0°200557..0 
201L6-02=01 10737300 wul606 ks .335800 .8.9500. J79000 26850%0 NA 146899.1 
2016-02-01 10:42:00 cul606 pb 35790 0 8.9475 0 DisD 50.200674 :2 
2016=02=01. T1205:00, culL606- ks 35780 1 S9450 .178900 26835,.0 NA 147043.4 
201.6=02=01] 243002 "SuL606 PE 35750 0 8:9375 0 0.0 150 200835.5 
2016-02=0 2L:00L eul606 Kb -35750 1 09375 .17189750 268012.5 NA 147222.6 
2016-02=009 2300, onte0e pe.35760 0 8.9400 0 0.0 50 200949.8 
2016-02=01 :29:00. cul606 ks 39770 1 8.9425 178850 26827.5 NA 147336.9 
2016=02=01. 13*36:00. wul606 BB 35357120 0 8.9300 0 0.0 250 201014.1 
2016-02-01 13:45:00 cul606 ks 35740 1 8.9350 178700 26805.0 NA 147446.2 
2016-02-01 13:46:00 cul606 pb 35730 0 8.9325 0 0.0 50 201078.4 
201.6-02-04 L3552:00. eul606 ks 35730 1 85.9325 小 78650 26797;,5 NA 147525.5 
2016-02=01 13:*5300 eul606 p35910 0 89273 9 Ot 100 201142.7 
2016=02=04 T3565:00 euL606 ks 35720 1 8:9300 178600. 2679050 NA 147604.8 
2016-02-01 14:49:00 cul606 pb 35660 058,9150 0 0.0 300 ,201207.0 
2016-02=01 147:52:00. ‘cul606 ks 35700 .8.9250 ,173500 26773.0 NA 147706.7 
2016-02-01 14:58:00 cul606 pb 35690 0 9223 0 0.0 50 201221.4 
数据 解释 : 


$x1 部分: 第 一 腿 的 交易 清单 。 
. $x2 部 分 : 第 二 腿 的 交易 清单 。 


code: 合约 代码 。 


. value: 对 应 价值 。 
.matpin: 保证 金 。 
. balance: 平 仓 盈 亏 。 


:cash: 账号 资金 。 


~ 


oh 


通过 交易 清单 统计 交易 结果 。 


# 回 测报 告 统计 
> page<-backtest.reading.pair (report) 


$day # 交易 日 期 
[1 本 "20] 6-02-01 wm 


Scapital # 初始 资金 


$cash # 账户 余额 


Srecord # 配对 交易 平 仓 航 亏 


xl1 x2 balance 


2016-02-01 09:25:00 700 -450 250 
2016-02-01 09:47:00 -50 200 150 
2016-02-01 10:01:00 100 50 150 
2016-02-01 10:07:00 150 0 150 
2016-02-01 10:42:00 100 50 150 
2016-02-01 11:21:00 50 150 200 
2016-02-01 11:23:00 100 50 150 
2016-02-01 13:36:00 -150 250 100 
2016-02-01 13:46:00 50 50 100 
2016-02-01 13:53:00 0 100 100 
2016-02-01 14:49:00 -200 300 100 
2016-02-01 14:58:00 0 50 50 


Sbalance “上 汇总 平 仓 熏 亏 ， 第 一 腿 鳃 亏 ， 第 二 腿 钥 亏 
[1] 1650 850 800 


$fee # 汇总 手 费 费 ， 第 一 腿 手续 费 ， 第 二 腿 手 续费 
[1] 429 214 215 


Sprof it 划 账 户 净 收 益 ， 收 益 率 ( 占 保证 金 ) 
[1] 1221.000 0.023 


Swins # 胜率 ， 胜 数 ， 败 数 
[1] 112 0 


最 后 ， 可 视 化 输出 交易 信号 


2016-02-01-cu1603-cu1606 


_30- 
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图 6-21 配对 交易 信号 图 
图 例 解 释 : 


“ 棕色 线 : 价差 diff。 

紫色 线 : 最 大 阅 值 top。 

. 红色 线 : 最 小 阅 值 bottom。 

“ 蓝 色 线 : 均值 线 mid， 平 行 于 top 和 bottom。 

* 浅 蓝 线 : ks 开 仓 做 空 的 交易 

: 绿色 线 : kb 开 仓 做 多 的 交易 

如 图 6-21 所 示 ， 我 们 进行 了 12 次 交易 ， 每 次 4 笔 ， 胜 率 100%。 


最 后 ,我们 对 2 月 份 整个 的 数据 进行 回 测 。 回 测 结果 如 下 : 


> cu cu 
date prof it ret balance fee winRate win fail maxProf it maxLoss avgProf it avgLoss 

1 2016-02-01 1221 0.023 1650 429 1.00 12 0 250 50 138 NaN 
2 2016-02-02 1077 0.020 1650 573 1.00 15 0 150 0 110 NaN 
3 2016-02-03 64 0.001 100 36 1.00 1] 0 100 100 100 NaN 
4 2016-02-04 113 0.002 150 37 a00. 1 0 150 150 150 NaN 
5 2016-02-05 926 0.017 1400 474 1.00 13 0 150 00 108 NaN 
6 2016-02-15 1191 0.022 1550 359 1.00 10 0 250 00 155 NaN 
7 2016-02-16 78 0.001 150 72 La:00 1 0 50 0 150 NaN 
8 2016-02-17 179 0.003 250 71 1.00 2 0 200 50 125 NaN 
9 2016-02-18 14 0.000 50 36 1.00 1 0 50 50 50 NaN 
10 2016-02-19 -36 -0.001 0 36 NaN 0 0 0 0 NaN NaN 
11 2016-02-22 64 0.001 100 36 1.00 1 0 00 00 100 NaN 
12 2016-02-23 632 0.012 850 218 1.00 6 0 200 00 142 NaN 
13 2016-02-24 470 0.009 650 180 1.00 4 0 200 0 162 NaN 
14 2016-02-25 114 0.002 150 36 L100 1 0 50 50 150 NaN 
15 2016-02-26 178 0.003 250 72 1.00 2 0 50 L100 125 NaN 
16 2016-02-29 511 0.009 800 289 0.88 7 50 -50 二 2 于 -50 


数据 解释 : 

date: 交易 日 期 。 
* profit: 净 收 益 。 
' tet: 每 日 收益 率 。 


balance: 平 仓 僵 志 。 


. WinRate: 胜率 。 


. win: 胜 数 。 

fail: 败 数 。 

. maxProfit: 单 笔 最 大 盈利 。 

.maxLoss: 单 笔 最 大 亏损 。 

. avgProfit: 平均 盈利 。 

.avgLoss: 平均 亏损 。 

由 此 可 见 ，cu1605 和 cu1606 两 个 合约 是 完美 具备 均衡 关系 的 两 个 金融 产品 ， 大 家 常常 所 说 的 跨 期 套利 就 是 基于 这 个 思路 实现 的 。 本 文 介 绍 的 配对 交易 模型 是 统计 套利 的 一 个 基本 模型 ， 原 理 很 简单 ， 
当 大 家 都 掌握 后 拼 的 就 是 交易 速度 了 。 

利用 市 场 的 无 效 性 来 获取 利润 ， 是 每 个 套利 策略 都 在 寻找 的 目标 。 通 过 统计 方法 ， 我 们 可 以 发 现 市 场 的 无 效 性 ， 再 以 对 冲 的 操作 方式 规避 绝 大 部 分 的 市 场 风 险 ， 等 待 市 场 自我 修复 来 赚钱 利润 。 说 起 来 
很 简单 ， 但 市 场 的 无 效 性 可 能 会 在 极 短 时间 内 就 被 修复 。 


“天 下 武功 为 快 不 破 ”， 通 过 量化 的 手段 ， 让 计算 机 来 发 现 机 会 ， 进 行 交 易 ， 实 现 收 益 。 一 切 就 和 谐 了 ! 


如 何 分 析 摩 羯 智 投 的 应 用 ? 


| 


| 
| 


fy 用 数据 解读 摩羯 智 投 


. ， 


http://blog.fens.me/finance-mojie 
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摩 揭 名 投 


进入 2016 年 ， 伴 随 世 界 经 济 危 机 的 到 来 ， 中 国 互联 网 创业 也 在 经 历 长 时 间 的 寒冬 ， 有 不 少 的 公司 都 因 资金 链 断 裂 停止 了 运营 。 与 寒冬 反差 很 大 的 是 ，Al 技 术 火 了 起 来 ， 并 受到 资本 的 追捧 。 智 能 投 顾 作 


摩羯 智 投 是 招商 银行 在 2016 年 12 月 6 日 发 布 的 一 款 手 机 端 应 用 ， 其 腐 入 在 招商 银行 的 App 中 ， 并 加 入 了 FinTech 理 念 ， 将 金融 和 人 工 智 能 进行 了 结合 。 


按 招商 银行 发 布 的 文章 中 介绍 ， 摩 羯 智 投 是 运用 机 器 学 习 算法 构建 的 以 公募 基金 为 基础 的 、 全 球 资产 配置 的 “智能 基金 组 合 配置 服务 ”。 在 客户 进行 投资 期 限 和 风险 收益 选择 后 ， 摩 羯 智 投 会 根据 客户 
自主 选择 的 “目标 一 收益 ”要 求 ， 构 建 基金 组 合 ， 由 客户 进行 决策 、“ 一 键 购买 ”并 享受 后 续 服务 。 


摩羯 智 投 并 非 一 个 单一 的 产品 ， 而 是 一 套 资 产 配 置 服务 流程 ， 它 包含 了 目标 风险 确定 、 组 合 构建 、 一 键 购 买 、 风 险 预警 、 调 仓 提示 、 一 键 优 化 、 售 后 服务 报告 等 ， 涉 及 基金 投资 的 售 前 、 售 中 、 售 后 全 


流程 服务 环节 。 比 如 ， 摩 羯 智 投 会 实时 进行 全 球 市 场 扫 描 ， 根 据 最 新 市 场 状况 ， 计 算 最 优 的 组 合 比例 ， 如 果 客 户 所 持 组 合 偏离 最 优 状态 ， 摩 羯 智 投 将 为 客户 提供 动态 的 基金 组 合 调整 建议 ， 在 客户 认可 后 ， 
即 可 自主 进行 一 键 优化 。 
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马上 进入 摩羯 智 投 


马上 进入 摩羯 智 投 


图 6-29 ” 摩 翔 智 投 的 开机 甬 面 


看 完 招商 银行 官方 的 介绍 ， 接 下 来 我 们 从 数据 的 角度 进行 分 析 ， 看 看 “摩羯 智 投 ”到 底 有 多 智能 。 


6.5.2 ”数据 收集 


要 做 数据 分 析 ， 我 们 就 要 以 数据 来 思考 。 我 的 思路 : 先 收集 数据 ， 对 应 用 中 所 有 输入 项 和 输出 项 的 数据 进行 整理 ， 然 后 通过 统计 的 方法 和 金融 知识 来 找到 数据 之 间 的 关系 。 
注 : 由 于 应 用 中 没有 明确 的 字段 定义 ， 我 将 按照 字面 意思 对 下 面 的 字段 进行 解读 。 

数据 输入 项 只 有 2 个 字段 ， 包 括 : 

“ 大 致 投资 期 限 : 从 投资 开始 到 投资 结束 的 期 限 。 

. 风险 承受 能 力 : 承担 多 大 的 风险 ， 以 及 风险 带 来 的 损失 。 

数据 输出 项 ， 字 段 就 比较 多 ， 包 括 : 

* 模拟 历史 年 化 收益 (%) : 对 历史 数据 回 测 ， 所 获得 的 年 化 收益 率 。 

* 模拟 历史 年 化 波动 率 〈%) : 对 历史 数据 回 测 ， 所 获得 的 年 化 波动 率 。 

. 模拟 历史 收益 (元 ) : 投资 10000 元 ， 并 持 有 一 年 ， 所 获得 的 收益 金额 。 

. 95% 的 概率 下 亏损 (元 ) : 在 95% 概 率 下 最 大 亏损 金额 。 

" 国定 收益 (%) : 国定 收益 类 基金 的 配置 比例 。 

. 现金 及 货币 (%) : 现金 货币 类 基金 的 配置 比例 。 

股票 类 (9%) : 股票 类 基金 的 配置 比例 。 

. 另类 及 其 他 (%) : 另类 投资 的 类 基金 的 配置 比例 。 

. 投资 组 合 收 益 率 曲线 : 按 比 例 构成 的 组 合 ， 所 生成 的 收益 率 曲 线 。 

* 投资 组 合 配置 详情 : 4 类 资产 对 应 的 具体 基金 品种 和 配置 比例 。 

对 应 到 “摩羯 智 投 ” 的 操作 界面 上 ， 我 标 出 了 输入 数据 和 输出 数据 的 提取 点 ， 如 图 6-30 所 示 。 

将 界面 收集 到 的 数据 整理 为 CSV 格 式 ， 以 便于 之 后 的 分 析 。 我 将 收集 到 的 数据 分 别 存储 到 了 3 个 CSV 文 件 中 。 


a.csv: 用 于 收集 第 1 一 2 个 界面 的 数据 ， 用 户 直接 输入 和 输出 数据 ， 包 括 : 大 致 投资 期 限 (term) 、 风 险 承 受 能 力 (tick) 、 模 拟 历史 年 化 收益 (ret) 、 模 拟 历 史 年 化 波动 率 (vol) 、 模 拟 历 史 收 益 
(gains) 、 亏 损 (loss) 、 国 定 收益 (fixed) 、 现 金 及 货币 (cash) 、 股 票 类 (stock) 、 另 类 及 其 他 (alter) 。 


* b.csv: 用 于 收集 所 有 标的 基金 所 对 应 的 市 场 数据 ， 从 wind 中 采集 ， 包 括 : 基金 名 称 (name) 、 基 金 代 码 (code) 、 基 金成 立时 间 (create) 、 基 金 类 型 (type) 、 净 值 20140101 (fitst2014) 、 净 值 
20150101 (fitst2015) 、 净 值 20160101 (first2016) 、 净 值 20161208 (last) 。 


“ c.csv; 用 于 收集 第 3 个 界面 的 数据 ， 每 个 组 合 的 标的 基金 的 配置 比例 包括 : 大 致 投资 期 限 (term) 、 风 险 承 受 能 力 (trick) 、 基 金 类 型 (type) 、 基 金 代 码 (code) 、 配 置 比例 (weight) 。 


14:07 ， 有 S 14:07 2: 14:07 


摩羯 智 投 摩羯 智 投 摩羯 智 投 


/i 泊 ， 将 根据 您 的 流动 性 安排 和 风险 偏好 ， 设 计 专 属于 您 已 成 功 进入 智能 理财 时 代 ， 欢 迎 查 看 专属 于 您 摩 措 14 写 
您 的 基金 组 合 方案 : ” 的 最 优 基金 组 合 方案 : 


大 致 投资 期 限 输入 组 合 配置 比例 万 寺 半 >》 四 8.58% 固定 收益 


纲 金 及 货币 | 输出 
中 期 48.58% 13.42% 量 | [19.50% | 嘉实 超 短 债 070009 
1-3 年 股票 类 | 


26.61% 11.39% 13.05% | 大 摩 收 益 C 233013 


模拟 历史 数据 () 输出 9.87% | 建 信 稳定 增 利 530008 


45% 
36% 6.16% ”| 工 银 添 颐 B 485014 


18% 


9% 股票 类 
模拟 历史 | 输出 0% 
me ders ee 中 欧 潜力 价值 001810 


2013-12-13 2016-12-15 


/.3% D.27% 一 一 的 机 组 合 。 一 业绩 


近 3 个 月 “ii 近 1 年 近 3 年 南方 量化 成 长 001421 


投资 10,000 元 ， 持 有 一 年 ， 模 拟 历史 收益 :| 730 元 
95% 的 概率 下 亏损 不 超过 :| 303 元 输 册 组合 的 过 往 业绩 并 不 预示 其 未 来 表现 ， 也 不 构成 本 组 富国 中 小 盘 港 100061 


合 业绩 表现 的 保证 。 市 场 有 风险 ， 投 资 需 谨慎 。 


我 选 好 了 立即 购买 立即 购买 


图 6-30 摩 翔 智 投 数据 提取 位 置 


a.CSsv 数 据 样 例 的 前 10 条 如 下 : 


> head (dfa,1] 
term risk ret vol fixed cash stock alter gains loss 


| 


] 5.01 2.57 ‘65.00 20.00 5.00 10500 501 3 
2 2 -530 2;72 55.00 19.60 10.40 15.00 530 3 
3 3. 5388. 3.05. 48.80 18.50 15;60 17.10 ‘588. :10 
4 4 6.64 3.88 51.70 14.90 23.30 10.10 664 96 
5 5 Tal3 da904940. L420 257:00 11..40 ,7713 2247 
6 6 7.64 6.06 46.00 12.00 30.00 11.40 764 424 
7 7 B18 7536 42s590 L020 .35540 11.50. - :8L8: .625 
8 8 8.75 8.84 38:53 8.37 46.63 6.47 875 858 
9 9 9.41 10.55 33.44 6.27 53.84 6.45 941 1127 
10 10 L022 12.73 3Ls07 -i000 1662583 610 T0221473 


b.csv 数 据 样 例 的 前 10 条 如 下 : 


> head (dfp, 10) 
name code create type first2014 first2015 first2016 last 


1 工 银 纯 债 B OF000403 20140516 f ixed 0.0000 1.0850 1.2200 1.2520 
2 易 增 强 回 报 B OF110018 20080319 f ixed 1.4403 1.8124 2.1180 2.1693 
3 建 信 稳定 增 利 C OF530008 20080625 fixed 1.4529 1.8030 2.0304 2.0608 
4 工 银 天 颐 B OF485014 20110810 f ixed 1.2090 1.7300 1.9740 1.9680 
5 南方 量化 成 长 OF001421 20150629 stock 0.0000 0.0000 1.2300 1.3400 
6 中 欧 潜力 价值 OF001810 20150930 stock 0.0000 0.0000 1.1010 1.2170 
7 大 成 500 OF096001 20110323 stock 1.2790 1.4314 1.4651 1.7457 

8 黄金 接连 C 类 OF000217 20130822 alter 0.8800 0.8940 0.8340 0.9965 

9 亚洲 美元 债 C OF002401 20160303 alter 0.0000 0.0000 0.0000 1.0867 

10 大 摩 收 益 C OF233013 20120828 fixed 1.0440 1.2970 1.5610 1.6350 


Cc.CsV 数 据 样 例 的 前 20 条 如 下 : 


> head (dfc, 20) 
term risk type code weight 


1 fixed OF000403 0.2000 
2 1 fixed OF110018 0.1400 
3 1 fixed OF530008 0.1100 
4 1 fixed OF233013 0.1000 
5 1 fixed OF050111 0.0500 
6 1 fixed OF485014 0.0500 
7 1 cash OF217004 0.2000 
8 1 alter OF002401 0.0500 
9 1 alter OF000217 0.0500 
10 1 stock OF001810 0.0500 
11 2 fiIxeq OF000403 0.2000 
下 儿 2 fixeq OF110018 0.1289 
13 2 fixed OF233013 0.1000 
14 2 fixed OF485014 0.0616 
15 2 fixed OF530008 0.0586 
16 2 cash OF217004 0.1965 
17 2 alter OF002401 0.0500 
18 2 alter OF000217 0.0500 
19 2 alter OF340001 0.0500 
20 2 stock OF001810 0.0544 


这 里 还 需要 特别 说 明 的 是 ， 由 于 应 用 的 数据 可 能 会 动态 地 发 生变 化 ， 我 采集 的 是 2016 年 12 月 8 日 “摩羯 智 投 ”应 用 中 的 数据 。 


6.5.3 ”数据 建 模 分 析 


收集 好 了 数据 ， 接 下 来 就 可 以 进行 数据 分 析 了 。 当 然 ， 分 析 的 角度 有 很 多 种 ， 可 以 从 金融 、 统 计 、 数 据 挖 掘 等 专业 方向 进行 分 析 ， 也 可 以 计算 一 些 简单 的 指标 ， 如 最 大 值 ， 最 小 值 ， 平 均值 等 。 我 思考 
的 出 发 点 主要 集中 在 金融 和 统计 方面 ， 如 果 存 在 片面 性 ， 还 请 大 家 给 予 指正 。 


下 面 将 从 6 个 知识 点 对 “摩羯 智 投 ”进行 分 析 。 


1. 分 析 一 : 只 有 2 个 输入 项 


由 于 只 有 2 个 输入 项 ， 即 大 致 投资 期 限 和 风险 承受 能 力 。 大 致 投资 期 限 有 3 个 选项 ， 风 险 承受 能 力 有 10 个 选项 ， 那 么 实际 的 组 合 个 数 就 是 3x10=30 个 。 对 于 只 有 30 个 组 合 的 输入 项 来 说 ， 并 不 能 完全 实 


现 个 性 化 ， 当 有 31 个 用 户 使 用 产品 时 ， 就 会 有 2 个 人 购买 的 组 合 是 重复 的 。 


2. 分 析 二 : 只 有 17 支 标的 基金 


我 们 对 30 个 组 合 进行 配置 尝试 后 ， 发 现 详细 持仓 方案 中 ， 只 有 17 支 基金 ， 配 置 比例 各 不 相同 。 标 的 过 少 ， 可 能 导致 风险 不 能 足够 地 分 散 化 ， 遇 到 极端 行情 会 导致 大 的 回 撤 。17 只 基金 分 别 是 : 


> paste (dfb$name," (", dfb$scode, ")", sep="") 


[1] “" 工 银 纯 债 B (OF000403)" " 易 增强 回报 B (OF110018)" " 建 信 稳 定 增 利 C (OF530008)" 
[4] " 工 银 天 颐 B (OF485014)" "南方 量化 成 长 (OF001421)" "中 欧 潜力 价值 (OF001810)" 
[7] "大 成 500 (OF096001)" "黄金 接连 Cc 类 (OF000217)" "亚洲 美元 债 C (OF002401)" 
[10] "大 摩 收 益 C (OF233013)" "博时 信用 债 C (OF050111)" “" 兴 权 可 转 债 (OF340001)" 
[13] " 创 金 多 因子 (OFE002210)" "招商 现金 增值 A (OF217004)" "富国 中 小 盘 (0F100061)" 
[16] "工银瑞信 全 球 (OF486002)" "南方 成 份 (OF202005)" 


3. 分 析 三 : 相关 性 分 析 


直接 利用 a.csv 的 数据 集 ， 碍 看 输入 项 和 输出 项 的 相关 性 ， 发 现 相 关 关 系 。 


# 加 载 数据 
> dfa<-read.csv (f ile="a.csv") 
> names (dfa) <-c ("term", "risk", "ret", "vol","f ixed", "cash","stock","alter", "gains","]oss") 


# 画 出 配对 示意 图 
> pairs (df) 
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图 6-31 
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各 项 指 


示 相 关 性 分 
将 数据 可 视 化 显示 ， 对 于 我 们 理解 数据 会 非常 有 帮助 。 

term 列 : 和 其 他 列 的 散 点 图 完全 呈现 离散 的 分 布 ， 说 明 term 列 与 其 他 列 没 有 相关 性 。 
“tisk 列 : 除了 和 alter 列 没有 线性 关系 ， 和 其 他 列 呈 现 明显 的 线性 关系 。 


我 们 在 图 6-31 中 再 添加 一 些 元 素 ， 如 相关 系数 、 拟 合 曲线 、 分 布 图 等 ， 重 新 画 出 相关 性 图 ， 如 图 6-32 所 示 。 
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图 6-32 ”优化 后 的 相关 性 分 析 
这 样 就 清晰 了 多 了 。 
:fisk 列 : 与 模拟 历史 年 化 收益 (ret) 、 模 拟 历 史 年 化 波动 率 (vol) 、 拟 历史 收益 (gains) 呈现 极度 正 相 关 ， 输 出 项 的 数字 完全 受 fisk 值 影响 。 
fisk 列 : 与 固定 收益 (fixed) 和 现金 及 货币 (cash) 极度 负 相 关 ; 与 股票 类 (stock) 极度 正 相 关 ; 与 另类 及 其 他 (alter) 负 相 关 。 这 种 情况 与 资产 的 风险 收益 属性 是 匹配 的 。 
* Vol 列 : 与 亏损 (loss) 呈 100% 的 线性 相关 性 。 
* fet 列 : 与 拟 历史 收益 (gains) 呈 100% 的 线性 相关 性 ， 这 里 可 以 获得 公式 : gains=10000#ret。 
4. 分 析 四 : 线性 回归 
通过 相关 性 的 检查 ， 我 们 可 以 发 现 risk 与 很 多 列 都 是 极度 相关 的 。 
那么 我 们 可 以 用 线性 回归 的 方法 把 risk 与 有 相关 性 的 列 的 参数 估计 出 来 。 如 果 不 太 了 解 一 元 线性 回归 ， 可 以 参考 本 书 2.2 节 R 语 言 解读 一 元 线性 回归 模型 。 


由 于 vol 和 loss 呈 100% 的 线性 相关 性 ， 以 vol 为 x，loss 为 y， 构 建 一 元 线性 回归 方程 。 


# 回归 方程 
> lv<-lm(loss~vol,data=dfa 
> summary (1v) 


~ 一 


Call: 
lm(formula = loss ~ vol, data = dfa) 
Residuals: 

Min 10 Median 30 Max 


-36.119 -31.491 -6.621 27.884 67.305 


Coeff icients: 


Estimate Std. Error t Value Pr (>|t|) 
(Intercept) -447.514 13.056 -34.28 <2e—16 *** 
Vol 149.109 1.707 87.34 <2e—16 *** 


Signif; Godes: OO WY/ OQ..00L we O01 人 05 Ve OL v7 1 


Residual standard error: 34.2 on 28 degrees of freedom 
Multiple R-squared: 0.9963, Adjusted R-squared: 0.9962 
F-statistic: 7629 on 1 and 28 DF, p-value: < 2.2e-16 


进行 线性 回归 的 统计 检查 : T 检 查 、F 检 查 都 非常 显著 ， 同 时 R-squared 为 0.9963， 具 有 极度 相关 性 。 


# 画 出 散 点 图 和 拟 合 曲 线 
> plot (loss~vol,data=dfa 
> abline (lv) 


Sa 


从 图 6-33 中 看 到 ， 拟 合 的 效果 非常 好 ， 可 以 整理 出 公式 : loss=-447.514+149.109*vol。 


1500 


loss 


图 6-33 ”回归 拟 合 


12 


14 
vol] 


另外 ， 由 于 risk 决 定 vol， 再 让 我 们 计算 一 下 risk 和 loss 的 关系 ， 以 risk 为 X，loss 为 y， 构 建 一 元 线性 回归 方程 。 


# 


lm(formula = loss ~ risk, data = dfa) 


构建 一 元 线性 回归 方程 


lm(loss~risk,data=dfa) 


Coeff icients: 
(Intercept) risk 
-435.8 180.0 

# 详细 指标 
> summary (1r) 
Call: 
lm(formula = loss ~ risk, data = dfa) 
Residuals: 

Min 10 Median 30 Max 
-219.88 -136.93 -59.26 100.69 508.31 
Coeff ijcients: 

Estimate Std. Error t value Pr(>|t|) 

(Intercept) -435.84 72.38 =6.021 1.73e=06 *** 
risk 179.95 11.67 15.426 3.23e-15 *** 
Sionif, codess 0 Yew O00L Yr O00L QO.05. ,7 OL 1 
Residual standard error: 183.5 on 28 degrees of freedom 
Multiple R-squared: 0.8947, Adjusted R-squared: 0.891 
F-statistic: 238 on 1 and 28 DF, p-value: 3.232e-15 


T 检 查 和 F 检 查 都 非常 显著 ; R-squared 也 比较 高 。 


下 面 进行 残 差 检查 ， 发 现 30 号 点 偏离 比较 大 ， 可 能 是 离 群 值 。 


Reslduals vs Fltted 
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图 6-34 ” 残 差 分 析 


我 们 把 30 号 点 去 掉 ， 再 进行 显著 性 检查 和 残 差分 析 。 


Standardized residuals 


Standardized residuals 


Normal Q-Q 
2 
一 ] 
3 
el 
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Leverage 


lm(formula = 


dfa2<-dfa[-30,] 
lr2<-lm(loss~risk,data=dfa2) 
summary (1r2) 


Re 


-2 


loss ~ risk, data = dfa2) 


siduals: 
Min 10 Median 30 Max 
03.00 -100.98 -58.98 83.53 327.46 


Coeff icients: 

Estimate Std. Error 七 Value Pr (>|t|) 
(Intercept) -397.55 62.23 -6.389 7.64e-07 xx 大 
risk 169.51 10.32 16.431 1.39e-15 *** 


Signif., codeéss ‘OQ: YEwrm OQ O00L, 0 wT ,0.05 ~ O51 -1 


Residual standard error: 155.3 on 27 degrees of freedom 
Multiple R-squared: 0.9091, Adjusted R-squared: 0.9057 
F-statistic: 270 on 1 and 27 DF, p-value: 1.391e-15 


在 去 掉 30 号 点 后 ，R-squared 为 0.9091， 比 之 前 的 0.8947 有 所 提升 。 


在 残 差 图 6-35 中 ， 我 们 看 到 没有 明显 的 离 群 值 点 ， 所 以 去 掉 30 号 点 是 符合 统计 提升 标准 的 。 
Residuals vs Fitted E Normal Q-Q 
号 300 
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图 6-35 ”优化 的 残 差分 析 
5. 分 析 五 : 关于 30 号 点 的 金融 思考 
从 数据 中 ， 我 们 发 现 30 号 点 的 最 大 亏损 已 经 超过 了 收益 ， 也 就 是 说 你 可 能 承担 了 过 大 的 风险 ， 但 是 没有 获得 风险 所 给 你 带 来 的 收益 。 


按照 资本 资产 定价 模型 的 理解 ， 我 们 投资 组 合 的 收益 来 自 两 个 部 分 ， 无 风险 收益 和 风险 收益 。 无 风险 收益 可 以 用 现金 或 货币 类 的 基金 获得 ， 风 险 收益 主要 来 自 股票 基金 、 债 券 基金 、 另 类 投资 基金 。 从 
直观 上 理解 ， 风 险 收益 比 至 少 是 1 : 1， 即 损失 100 元 时 ， 要 获得 100 元 风险 补偿 。 对 于 私募 业务 来 说 ， 投 资 人 的 要 求 可 能 会 更 高 ， 比 如 风险 : 收益 =1 : 2。 关 于 资本 资产 定价 模型 的 介绍 ， 请 参考 本 书 2.1 节 的 


内 容 。 


从 另外 一 个 角度 分 析 ， 上 面 我 所 说 的 风险 收益 比 并 没有 涉及 概率 的 部 分 ， 我 认为 95% 是 通过 VaR 值 来 做 的 概率 计算 。 
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a 摩羯 智 投 


jij 将 根据 您 的 流动 性 安排 和 风险 偏好 ， 设 计 专 属于 


“您 的 基金 组 合 方案 : 


大 致 投资 期 限 


长 期 
3 年 以 上 


风险 承受 级 别 


低 风险 1 高 风险 


模拟 历史 模拟 历史 
年 化 业绩 年 化 波动 率 


1.23% 15.28% 


投资 10,000 元 ， 持 有 一 年 ， 模 拟 历 史 收 益 : 1,123 元 
95% 的 概率 下 亏损 不 超过 : 1,872 元 


找 这 好 了 


图 6-36 30 号 点 的 界面 截图 


6 .分 析 六 : 通过 标的 基金 计算 收益 率 


在 “摩羯 智 投 ” 的 应 用 中 ， 我 们 可 以 获得 各 个 基金 的 配置 比例 ， 基 金 净值 的 数据 又 可 以 在 公开 市 场 中 获得 ， 所 以 对 于 预期 收益 率 ， 我 们 也 可 以 自己 计算 一 下 ， 看 看 与 “摩羯 智 投 ” 提 供 的 结果 是 否 是 一 
致 的 。 


接 下 来 ， 就 利用 到 上 文 介绍 的 数据 集 ，b.csv 和 fc.csv。 


# 加 载 数据 
> dfb<-read.csv (f ile="b.csv",encoding="utf-8",f ileEncoding = "utf-8") 
> names (dfb) <-c ("name", "code", "create", "type", "f jrst2014","f irst2015", "f irst2016", "last") 


分 别 计算 2014，2015，2016 收 益 率 

qfbsret2014<- (dfb$f irst2015-dfb$f irst2014) /dfb$f irst2014 
dfb$ret2015<- (dfb$f irst2016-dfb$f irst2015) /dfb$f irst2015 
dfb$ret2016<- (dfb$last-dfb$f irst2016) /dfb$f irst2016 


V VV 


# 把 非法 值 赋值 为 0 
> dfpb$ret2014[c (which(is.na (dfb$ret2014)),which(is.inf inite (dfb$ret2014)))]<-0 
> dfb$ret2015[c (which (is.na (dfpb$ret2015)) ,which (is.inf inite(dqfbSret2015) ) ) ]<-0 
> dfpb$ret2016[c (which(is.na (dfpb$ret2016)),which(is.inf inite (dfb$ret2016)))]<-0 
# 打印 前 6 条 
> head (dfbp) 

name Code create type first2014 first2015 first2016 last ret2014 ret2015 ret2016 
1 工 银 纯 债 B OF000403 20140516 f ixed 0.0000 1.0850 1.2200 1.2520 0.00000000 0.12442396 0.026229508 
2 易 增强 回报 B OF110018 20080319 fixed 1.4403 1.8124 2.1180 2.1693 0.25834896 0.16861620 0.024220963 
3 ” 建 信 稳定 增 利 C OF530008 20080625 fixed 1.4529 1.8030 2.0304 2.0608 0.24096634 0.12612313 0.014972419 
4 工 银 天 颐 B OF485014 20110810 fixed 1.2090 1.7300 1.9740 1.9680 0.43093466 0.14104046 -0.003039514 
5 ”南方 量化 成 长 OF001421 20150629 stock 0.0000 0.0000 1.2300 1.3400 0.00000000 0.00000000 0.089430894 
6 ”中 欧 潜力 价值 OF001810 20150930 stock 0.0000 0.0000 1.1010 1.2170 0.00000000 0.00000000 0.105358765 


由 于 基金 中 ， 招 商 现 金 增 值 A (OF217004) 为 现金 类 基金 ， 所 以 收益 率 需 要 直接 取 年 化 收益 率 ， 而 不 是 按 上 面 的 计算 方法 。2014 年 招商 现金 增值 A 的 平均 年 华 收益 率 为 4.52%，2015 年 平均 年 华 收益 率 
为 3.6%，2016 年 平均 年 华 收益 率 为 2.3%。 


# 现 金 类 ， 收 益 率 从 wing 查 年 化 收益 率 ， 进 行 赋值 
qfb [which (dfb$code=="'OF217004'), ] $ret2014<-0.0452 


fb [which (dfb$code=="'OF217004'),]$ret2015<-0.036 
fb [which (dfb$code=="'OF217004'),]$ret2016<-0.0237 


Oo, 


再 加 载 c.csv 基 金 的 详细 配置 方案 。 


> dfc<-read.csv (f ile="c.csv") 
> names (dfc) <-c ("term", "risk", "type", "code", "weight") 
# 查看 数据 
> head (dfc) 

term risk type code weight 
1 ] 1 fixed OF000403 0.20 
2 Ff ixed OF110018 0.14 
3 f ixed OF530008 0.11 
4 f ixed OF233013 0.10 
5 f ixed OF050111 0.05 
6 f ixed OF485014 0.05 


数据 变型 ， 将 type 列 转 置 为 横 表 ， 去 掉 code 列 ， 以 weight 值 进行 填充 ， 得 到 新 数据 集 为 r1。 


> head (rl1) 

term risk alter cash fixed stock 
1 ] 1 0.1000 0.2000 0.6500 0.0500 
2 2 0.1500 0.1965 0.5491 0.1044 
3 3 0.1562 0.1842 0.4881 0.1715 
4 4 0.1011 0.1490 0.5162 0.2337 
5 505.L137 © 16 0.4943 0.2504 
6 6 0.1143 0.1208 0.4655 0.2994 


我 们 生成 plan1 的 配置 方案 ， 当 term=1、risk=1 时 。 


# 只 保留 term=1，risk=1 时 数据 
> planl<-dfc[dfc$term==1 & dfc$risk==1,] 
# 合并 plan1 数 据 集 和 dfb 数 据 集 
> planlm<-merge (planl[,c("term", "risk","code", "type", "weight")],dfbl,c("code","ret2014","ret2015", "ret2016") ] ,by="code") 
# 按 分 配 比例 计算 收益 率 
> planlm$ret2014w<-planlm$weight*planlm$ret2014 
> planlm$ret2015w<-planlm$Sweight*planlm$ret2015 
> planlm$ret2016w<-planlmSweight*planlm$ret2016 
# plan1 的 各 基金 分 别 在 2014 年 、2015 年 、2016 年 贡献 的 收益 率 
> planlm 

Code term risk type weight ret2014 ret2015 ret2016 ret2014w ret2015w ret2016w 
1 OF000217 ] 1 alter 0.05 0.01590909 -0.06711409 0.194844125 0.0007954545 -0.003355705 0.0097422062 
2 OF000403 ] 1 fixed 0.20 0.00000000 0.12442396 0.026229508 0.0000000000 0.024884793 0.0052459016 
3 OF001810 ] 1 stock 0.05 0.00000000 0.00000000 0.105358765 0.0000000000 0.000000000 0.0052679382 
4 OF00240] ] 1 alter 0.05 0.00000000 0.00000000 0.000000000 0.0000000000 0.000000000 0.0000000000 
5 OFO05011] ] 1 fixed 0.05 0.87631433 0.12603844 0.034050727 0.0438157167 0.006301922 0.0017025363 
6 OF110018 ] 1 fixed 0.14 0.25834896 0.16861620 0.024220963 0.0361688537 0.023606268 0.0033909348 
7 OF217004 ] 1 cash 0.20 0.04520000 0.03600000 0.023700000 0.0090400000 0.007200000 0.0047400000 
8 OF233013 ] 1 fixed 0.10 0.24233716 0.20354665 0.047405509 0.0242337165 0.020354665 0.0047405509 
9 OF485014 ] 1 fixed 0.05 0.43093466 0.14104046 -0.003039514 0.0215467328 0.007052023 -0.0001519757 
10 OF530008 ] 1 fixed 0.11 0.24096634 0.12612313 0.014972419 0.0265062977 0.013873544 0.0016469661 


将 数据 进行 合并 ， 分 别 计算 plan1 方 案 的 收益 率 和 plan1 方 案 不 同 资产 的 收益 率 贡 献 。 


# plan1l 方 案 的 收益 率 
> planlr<-ddply (planilm, . (term, risk),summarise, ret2016=sum (ret2016w) ,ret2015=sum (ret2015w) ,ret2014=sum (ret2014w)) 
> planilr 

term risk ret2016 ret2015 ret2014 

1 O03632506.0,509991731.. 0.1621069 

# 计 算 3 年 的 累积 收益 率 曲线 
> planlr$cumret<-sum(c (planlr$ret2016,planlr$ret2015,planlr$ret2014)) 
> planilr 

term risk ret2016 ret2015 ret2014 cumret 
1 1 1 0.03632506 0.09991751 0.1621068 0.2983493 


# Plan1 方 案 不 同 资产 的 收益 率 贡 献 
> planlrm<-ddply (planlm, . (termr risk,type),summarise,ret2016=sum (ret2016w) ,ret2015=sum(ret2015w) ,ret2014=sum (ret2014w)) 
> 了 

区 


lanlrm 
erm risk type ret2016 ret2015 ret2014 


1 alter 0.009742206 -0.003355705 0.0007954545 
2 cash 0.004740000 0.007200000 0.0090400000 
3 ] 1 fixed 0.016574914 0.096073214 0.1522713174 
4 ] stock 0.005267938 0.000000000 0.0000000000 


根据 我 们 计算 的 结果 ， 分 别 对 比 “摩羯 智 投 ”中 ， 近 1 年 和 近 3 年 的 收益 率 曲 线 。 
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图 6-37 1 年 期 和 3 年 期 收益 率 曲 线 比 较 


近 1 年 对 应 plan1， 其 中 ret2016=0.03632506=3.63，cumret=0.2983493=29.83%。 我 发 现 计算 结果 存在 差异 ， 从 最 终结 果 的 数字 上 来 看 差异 并 不 大 。 但 从 近 3 年 的 收益 率 曲线 的 走势 来 看 ， 差 异 还 是 
非常 明显 的 。 “摩羯 智 投 ”给 出 的 近 3 年 收益 率 曲 线 是 均匀 平稳 上 升 的 ， 而 根据 我 算出 来 的 3 年 数据 的 结果 来 看 ，2014 年 涨 了 16%，2015 年 涨 了 9%，2016 年 涨 了 3%， 逐 年 收益 率 在 递 碱 。 所 以 不 应 该 呈现 
均匀 平稳 上 升 的 形状 。 


究 其 原因 ， 再 来 看 plan1 的 组 合 数据 ， 发 现 股票 基金 只 配 了 一 支 中 欧 潜力 价值 (OF001810) ， 而 这 文 基金 在 2015 年 9 月 30 日 才 成 立 ， 所 以 并 不 能 构建 出 该 基金 在 2014 年 、2015 年 的 年 度 收益 率 组 合 。 
以 此 来 判断 ， 这 个 组 合 势必 存在 着 中 间 调 仓 的 过 程 ， 而 “摩羯 智 投 ”的 收益 率 曲线 并 没有 展示 出 调 仓 过 程 的 数据 ， 所 以 收益 率 曲 线 是 不 透明 的 ， 不 能 够 直接 做 为 用 户 购买 决策 的 依据 。 


接 下 来 ， 我 们 把 30 种 组 合 的 收益 率 都 计算 出 来 。 再 与 “摩羯 智 投 ”给 出 的 收益 率 进 行 比较 。 


term risk | ret2016 ret2015 ret2014 mean 

1 1 11 5. 3.632506 9.9917 51 16.21067/7 9.9449/8 
2 1 10 100.2216.198760 7.049315 17.743376 10. 330484 
3 1 214 5.3084.449338 9.129718 14.047953 9.209003 
4 1 34 5. 4.371248 7.617743 11.439545 7.809512 
了 1 4 6. 4. 29bUUU 8.023/7//7 J0.688/B80 /.6695]19 
6 1 9 /7.- 4 .A78504 7 .492688 1]0.262947 /7.411380 
7 1 617.6 .538284 6.980744 10. 347668 7.288898 
8 1 7 | 8. 4.585401 6.471830 10. 817985 7.291739 
9 1 BI 8.75485.916795 6.421429 6.852006 6.396743 
1 马上 9. 6b.37r4440 5.295182 13.085237 8.251620 

2 1 1 5. A57547 9.110942 14.094492 9.220993 

2 OH0.606.261426 6.718109 17.889275 10.289603 

2 2|4 5.39 上 时 .609648 9.065737 13.761499 9.145628 

2 31 6. 4.453050 7.853433 10. 372646 7.559710 

2 4 6.80E4.316154 /7/.841456 10.4/8096 /7/. 53543233 

F 3 1 7， ,17173002 .3uol3o3 10.233540 7. 33717639 

2 617. 5.495333 6.853176 10.707537 7.685349 

2 7 | 8. 5.495333 6.853176 10.707537 7.685349 

2 8|1 8. 6.104869 5.784689 12.969496 8.286351 

2 马上 9. b.47062] 5.030586 13.05)1]0658 8.184288 

3 1 1 5. 4 .504601 9.135906 13.850217 9.163575 

3 0 01. 6.456360 6.083111 18.165172 10.234881 

3 214 5. 4.637955 8.967633 13.726397 9.110662 

3 31 6. 4.724024 8.148983 10.866801 7.913269 

3 44 6. 5.021238 .bbbUd4y74 10.353324 /1.06/8345 

3 5 7.47415.021238 7.660474 10.353324 7.678345 
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图 6-38 ”30 个 组 合 的 收益 率 计算 


图 6-38 中 ，ret 列 为 “摩羯 智 投 ” 界 面 上 采集 的 数据 ; ret2016、ret2015、ret2014 分 别 为 我 们 根据 基金 的 公开 市 场 的 数据 ， 计 算出 来 的 百分比 结果 ; mean 为 ret2016、ret2015、ret2014 的 算数 平均 
数 。 从 数据 上 看 ，ret 列 和 mean 列 有 部 分 值 接 近 。 我 们 再 做 一 次 相关 性 分 析 。 


这 样 解读 结果 就 容易 多 了 ，ret 与 2016 年 的 收益 率 是 线性 相关 的 ， 而 mean 与 2014 年 的 收益 率 是 线性 相关 的 ， 我 认为 是 2014 底 的 “ 股 债 双 牛 ”使 均值 发 生 了 偏离 。 所 以 ，ret 和 mean 没 有 关系 ，“ 摩 羯 
智 投 ” 对 于 收益 率 的 预期 ， 对 于 近 1 年 的 组 合 收益 可 能 有 更 大 的 权重 分 配 。 


所 以 ， 我 们 并 不 能 通过 已 知 的 数据 计算 出 “摩羯 智 投 ”的 预期 收益 和 净值 曲线 ， 这 些 会 涉及 它 的 背景 算法 ， 我 们 就 无 从 知晓 了 。 
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图 6-39 ”收益 率 的 相关 性 分 析 
6.5.4 结论 


以 上 从 数据 的 角度 对 “摩羯 智 投 ” 进 行 了 分 析 ， 首 先 摩 羯 构建 的 组 合 是 线性 组 合 ， 符 合 风险 收益 为 基础 资本 资产 定价 模型 (CAPM) 。 但 由 于 组 合 数量 与 基金 标的 有 限 、 算 法 不 够 透明 、 无 法 利用 已 知 
数据 重 现 结果 ， 并 且 缺 少 客户 持续 跟踪 等 部 分 ， 所 以 我 把 “摩羯 智 投 ” 理 解 为 是 基于 金融 专业 性 架构 ， 结 合 快 速 上 线 为 目标 的 试 水 。 它 可 以 实现 对 散户 的 简单 、 高 效 的 财富 管理 体验 ， 部 分 解放 理财 经 理 的 
压力 。 但 对 于 专业 的 投资 经 理 来 说 ， 这 还 仅仅 是 个 玩具 ， 还 有 相当 大 的 提升 空间 。 


本 文 只 是 个 人 出 于 兴趣 ， 从 数据 角度 对 “摩羯 智 投 ” 应 用 的 分 析 ， 不 代表 任何 公司 或 其 他 第 三 方 机 构 的 立场 。 由 于 所 获得 的 数据 以 及 个 人 的 知识 能 力 有 限 ， 如 有 片面 的 理解 ， 还 请 大 家 指正 。 


结束 语 


到 这 里 为 止 ， 本 书 的 正文 部 分 就 结束 了 ， 感 谢 你 的 阅读 。 希 望 这 本 书 能 给 你 带 来 新 的 技能 提升 ， 使 你 不 仅 能 熟练 运用 RR 语言 编程 ， 而 且 能 结合 自己 已 掌握 的 金融 知识 ， 在 实际 的 金融 市 场 中 ， 发 现价 值 ， 


发 现 规律 ， 获 得 收益 。 


书 中 所 介绍 的 全 部 知识 点 和 案例， 都 是 我 自己 的 实践 总 结 。 书 中 金融 部 分 的 知识 点 只 是 对 于 金融 学 科 的 初探 ， 人 金融 的 知识 体 量 和 I 本 的 知识 体 量 差 不 多 ， 有 非常 大 的 体系 脉络 。 要 不 停 地 学 习 ， 才 能 跟 上 
节奏 不 被 市 场所 淘汰 。 我 会 一 直 坚 持 走 我 自己 的 路 ， 和 希望 能 在 接 下 来 的 几 年 ， 更 多 地 理解 金融 的 逻辑 ， 理 解 中 国 的 市 场 。 


我 一 直 在 探索 转型 之 路 ， 和 希望 能 认识 行业 里 更 多 的 朋友 ， 一 起 创造 机 会 ， 创 造 未 来 ， 为 中 国 的 金融 强国 梦 做 出 贡献 。 


后 续 的 文章 我 会 在 我 的 个 人 博客 (http://fens.me) 中 继续 发 布 ， 也 可 能 会 再 写 一 本 书 ， 也 可 能 会 休息 休息 。 人 毕竟 写 书 太 苦 了 ， 本 书 足 足 花 了 我 2 年 半 的 时 间 才 得 以 完成 ， 身 上 的 压力 ， 迟 迟 放 不 下 。 我 很 
期 待 程序 员 朋 友 们 ， 利 用 IT 技术 在 金融 市 场 中 成 功 转型 ， 把 技术 变 成 真正 的 价值 。 欢 迎 大 家 联系 我 ， 共 同 探讨 ， 多 多 交流 。 


